Google DeepMind、あらゆる入力から動画を生成するGemini Omniを発表
Original: Google DeepMind Launches Gemini Omni: Video Generation from Any Input View original →
Gemini Omniとは
Google DeepMindは2026年5月19日、Google I/O 2026にてGemini Omniを発表した。テキスト・画像・音声・動画など、あらゆる入力から動画を生成するOmniファミリーの第一弾モデルだ。GeminiのインテリジェンスとGoogleのメディア生成システムを統合したこのモデルを、Googleは「世界理解、マルチモーダル性、編集における新たな飛躍」と説明している。
主な機能
Gemini Omni Flashは、写真1枚から複数の動画バリエーションを生成し、追加プロンプトで構図やスタイルを変換できる。重力・運動エネルギー・流体力学など物理的な力への理解が向上し、よりリアルな映像表現が可能になった。Flashクリップは最長10秒に制限され、生成された動画すべてにGoogleのSynthIDデジタル透かしが埋め込まれ、合成コンテンツの追跡が可能だ。
提供範囲と利用方法
Google AI Plus・Pro・UltraサブスクライバーはGeminiアプリとGoogle Flowから即日利用できる。18歳以上のユーザーはYouTube Shorts RemixとYouTube Createアプリで無料で動画を生成できる。開発者向けAPIは数週間以内に提供予定だ。
Google I/O 2026の文脈
Gemini OmniはGemini 3.5 FlashとパーソナルAIエージェントGemini Sparkとともに発表され、Google I/O 2026の目玉の一つとなった。スンダー・ピチャイCEOは基調講演で「我々は今、エージェント型Gemini時代に確実に入った」と宣言した。より高速・低コストのFlashを先行リリースするGoogleの戦略は、フロンティア技術の維持と大規模ユーザーへの普及を両立させる姿勢を示している。
Related Articles
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。
重要なのは、retrieval stackがtext-only searchからmultimodal memoryへ移っている点だ。Google AI StudioはGemini Embedding 2がGAとなり、text、image、video、audio、documentsの5入力を1つのmodel pathで扱うと示した。
Googleは5月12日「Android Show: I/O Edition」でGemini Intelligenceを発表。Galaxy S26とPixel 10を皮切りに夏から順次配信し、アプリ横断タスク自動化や自然言語ウィジェット生成機能が提供される。
Comments (0)
No comments yet. Be the first to comment!