Google DeepMind、インタラクティブ世界モデル『Genie 3』を発表
Original: Genie 3: A new frontier for world models View original →
生成AIの重心が「視聴」から「操作」へ移動
Google DeepMindは2026年1月29日、世界モデルの新世代として『Genie 3: A new frontier for world models』を発表した。主な特徴は、テキストまたは画像プロンプトから仮想環境を生成し、ユーザーがカメラ移動やオブジェクト操作を行うと、その入力に応じて世界がリアルタイム更新される点にある。固定映像を出力する従来型video generationとの差が明確だ。
公表された指標は720p、24fps、そして1分以上の世界一貫性維持である。これは見た目の品質だけでなく、操作に対する連続性を保てるかを重視した設計といえる。ユーザーが予定外の方向へ移動した場合でも、シーン内の関係性や状態遷移を破綻させずに応答できるかが、world modelの実用性を左右する。
Genie 3はDream、Explore、Collaborateの3モードを用意する。Dreamはプロンプト起点の世界生成、Exploreは生成空間内での探索・分岐体験、Collaborateは人間とAIの共同編集を想定したモードだ。これにより、単発デモではなく、創作・設計・検証の反復ワークフローに組み込める基盤として位置づけられている。
応用面ではembodied AI研究との接続が大きい。実ロボット実験はコストと安全制約が大きいため、インタラクティブなworld modelは方策探索や行動計画の検証を高速化できる。加えて、ゲームやメディア制作でも、ユーザー操作で結果が変わる生成体験を実装する基盤技術として価値が高い。
DeepMindの示唆は明確で、世界モデルの評価は解像度やフレームレートだけでは不十分だ。長時間一貫性、制御可能性、低遅延、安全ガードレールを同時に満たして初めて本番運用に近づく。Genie 3は、生成AIが出力中心から相互作用中心へ進む転換点を示す発表といえる。
Related Articles
Runwayが$315 million規模のSeries E資金調達を発表した。会社はこの資金を次世代world modelの事前学習と、新しい製品および産業展開に使うとしている。
Runwayは2026年3月9日、GWM-1ベースのreal-time video agent APIであるRunway Charactersを発表した。single imageからfine-tuningなしでconversational avatarを作り、voice・personality・knowledge・actionsをAPIで制御できると説明している。
Microsoft Threat Intelligenceは2026年3月6日、攻撃者が調査、phishing、malware開発、侵害後分析までAIを活用していると報告した。AIはまだ大規模な完全自律侵入を実現していないが、攻撃の速度・規模・持続性をすでに押し上げているという整理だ。
Comments (0)
No comments yet. Be the first to comment!