Meituan LongCat TeamがLongCat-Video-Avatar 1.5を公開した。Hugging FaceにはMITライセンス、Diffusers利用例、音声・画像・テキストから動画を作るタグが並ぶ。
#video-generation
RSS FeedGoogle DeepMindはGoogle I/O 2026にて、テキスト・画像・音声・動画などあらゆる入力から動画を生成するGemini Omniを発表した。GeminiのインテリジェンスとGoogleのメディア生成システムを統合し、GeminiアプリやYouTube Shortsで即日利用可能だ。
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。
NVIDIA Labsが、最大1分・720p解像度の動画を生成できる2.6Bパラメータのオープンソース世界モデル「SANA-WM」を公開した。比較的小さなモデルサイズとオープンソース公開が動画生成研究のアクセシビリティを高める。
Googleの未発表ビデオ生成モデル「Omni」と見られる映像が流出し、r/singularityで1,300票以上を集めた。既存モデルの弱点だったテキストレンダリングの一貫性が大幅に改善されているとして注目された。
Google は Veo 3.1 Lite を、自社で最も cost-effective な video generation model として発表した。Veo 3.1 Fast の 50% 未満のコストで同じ speed を提供し、paid tier の Gemini API と Google AI Studio を通じて高ボリュームの video app 開発を狙う。
Redditで広がったNetflixのVOIDは、videoからobjectだけでなく、そのobjectが生んだinteractionまで除去しようとするopen research modelだ。CogVideoXベースの2-pass pipeline、Gemini+SAM2によるmask生成、40GB+ VRAM要件が技術的な核心になっている。
Together AIは2026年4月3日、Alibaba CloudのWan 2.7を自社platformに導入すると発表した。併せて公開された製品記事では、text-to-videoを今すぐ提供し、image-to-video、reference-to-video、video editを同じAPI・認証・課金面に広げていく方針を示している。
OpenAIはMarch 23, 2026、Soraの動画に visible・invisible な provenance signal と C2PA metadata を埋め込むほか、実在人物を含む動画にはより強い consent control を適用すると説明した。teen向け保護、video・audio 全体の filtering、living artist や既存作品の模倣を防ぐ audio safeguard も打ち出している。
フィナンシャル・タイムズによると、DeepSeek V4が来週リリースされる予定で、画像・動画生成機能を搭載し、OpenAIやGoogleのマルチモーダルAIに正面から挑む見通しです。
TikTokの親会社ByteDanceが開発したSeedance 2.0 AIが、単一のテキストプロンプトだけで実際の撮影映像と見分けがつかないほどリアルな動画を生成し、ハリウッドの映像制作業界に衝撃を与えています。突然の登場とその完成度の高さが業界関係者を驚かせています。
ByteDanceが公開したSeedance 2.0はテキスト・画像・動画・音声の4入力を同時に処理し、最大20秒1080pの動画を生成。公開直後にDisney・Paramount・MPA等から著作権侵害の警告を受け、AI動画生成をめぐる著作権問題が新局面を迎えた。