Skip to content

Google I/O 2026: 会話でビデオを編集できる「世界モデル」Gemini Omni登場

Read in other languages: 한국어English
AI May 20, 2026 By Insights AI 1 min read Source

「世界モデル」としての位置付け

GoogleはI/O 2026のキーノート(5月19日)でGemini Omniを発表した。DeepMind CEOのDemis Hassabis氏は、OmniをVeo・Nano Banana・Genieなどのメディア生成モデルと統合した「世界モデル(world model)」と説明した。Sora、Runway、従来のVeoのようにテキストプロンプトからクリップを生成するアプローチとは異なり、Omniは物理環境を理解し因果関係を予測した上で編集指示に応じる。

会話型動画編集がカギ

最大の特徴は会話型動画編集だ。「背景を夕日に変えて」「カメラを左に引いて」といった自然言語の指示を受けると、モデルがシーン全体のコンテキストを保持しながら変更を適用する。多くのAI動画モデルが編集後に人物や背景の一貫性を失う課題があるが、Gemini OmniはOmniがシーン全体のコンテキストを把握することでこれに対応している。

  • マルチモーダル入力: テキスト・音声・画像・動画を同時処理
  • 物理シミュレーション: スタイル変換ではなく環境理解に基づく編集
  • シーン一貫性: 編集後も人物・背景・動きの整合性を維持
  • YouTube統合: YouTube ShortsおよびYouTube Createアプリと今週連携開始(追加費用なし)

即日提供、Veoを置き換え

Gemini Omni Flashは発表当日からGoogle AI Plus・Pro・Ultraサブスクライバー向けにGeminiアプリとGoogle Flowで利用可能だ。GeminiアプリのVeoはGemini Omniに置き換えられる。OpenAI Sora、Runway、Klingが競合するAI動画市場において、Googleの「世界モデル」という位置付けは生成ではなく理解を重視した差別化戦略だ。

出典: Google Blog — Introducing Gemini Omni

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment