Google DeepMind、インタラクティブ世界モデル『Genie 3』を発表
Original: Genie 3: A new frontier for world models View original →
生成AIの重心が「視聴」から「操作」へ移動
Google DeepMindは2026年1月29日、世界モデルの新世代として『Genie 3: A new frontier for world models』を発表した。主な特徴は、テキストまたは画像プロンプトから仮想環境を生成し、ユーザーがカメラ移動やオブジェクト操作を行うと、その入力に応じて世界がリアルタイム更新される点にある。固定映像を出力する従来型video generationとの差が明確だ。
公表された指標は720p、24fps、そして1分以上の世界一貫性維持である。これは見た目の品質だけでなく、操作に対する連続性を保てるかを重視した設計といえる。ユーザーが予定外の方向へ移動した場合でも、シーン内の関係性や状態遷移を破綻させずに応答できるかが、world modelの実用性を左右する。
Genie 3はDream、Explore、Collaborateの3モードを用意する。Dreamはプロンプト起点の世界生成、Exploreは生成空間内での探索・分岐体験、Collaborateは人間とAIの共同編集を想定したモードだ。これにより、単発デモではなく、創作・設計・検証の反復ワークフローに組み込める基盤として位置づけられている。
応用面ではembodied AI研究との接続が大きい。実ロボット実験はコストと安全制約が大きいため、インタラクティブなworld modelは方策探索や行動計画の検証を高速化できる。加えて、ゲームやメディア制作でも、ユーザー操作で結果が変わる生成体験を実装する基盤技術として価値が高い。
DeepMindの示唆は明確で、世界モデルの評価は解像度やフレームレートだけでは不十分だ。長時間一貫性、制御可能性、低遅延、安全ガードレールを同時に満たして初めて本番運用に近づく。Genie 3は、生成AIが出力中心から相互作用中心へ進む転換点を示す発表といえる。
Related Articles
HY-World 2.0はtext、single-view image、multi-view image、videoを3D Gaussian Splatting sceneへ変換する。より重要なのは、model weights、code、technical detailsが公開される点だ。
r/LocalLLaMAがこの小さなdemoに反応した理由はpolished gameではない。photoやdrawingをlocal world modelがその場でplay spaceへ変える感覚だった。
HNがこのRAM shortage storyに反応した理由は、AI data center向けHBM需要がphones、laptops、handheldsの価格にもつながるという物理的な連鎖だった。
Comments (0)
No comments yet. Be the first to comment!