HY-World 2.0、探索可能な3D world modelのcodeとweightsを公開
Original: HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds View original →
HY-World 2.0は、world modelがvideo clip生成を越えて、探索できる3D空間へ向かっていることを示す新しい研究だ。Team HY-Worldは、2026年4月15日17:59:17 UTCに提出されたarXiv paperで、text prompt、single-view image、multi-view image、videoから3D worldをreconstruct、generate、simulateするmultimodal frameworkを説明している。
出力は単なる2D生成ではない。HY-World 2.0は3D world representationを作り、textまたはsingle imageからhigh-fidelityでnavigableな3D Gaussian Splatting sceneを合成するとしている。Pipelineは四つの段階に分かれる。HY-Pano 2.0によるPanorama Generation、WorldNavによるTrajectory Planning、WorldStereo 2.0によるWorld Expansion、WorldMirror 2.0によるWorld Compositionだ。
論文はWorldLensというrendering platformも示す。著者らはengine-agnostic architecture、automatic IBL lighting、efficient collision detection、training-rendering co-design、character exploration supportを特徴として挙げる。World modelが実用に近づくには、生成された場面を眺めるだけでなく、user、simulator、embodied agentがその中を移動できる必要がある。
今回のreleaseで大きいのはopenである点だ。著者らはmodel weights、code、technical detailsを公開すると述べ、複数benchmarkでopen-source approachesの中で最も強い結果を示し、closed-source model Marbleに近い結果だと報告している。もちろん、この主張は外部検証が必要だ。特にpaperの整ったexampleを離れた場面、特殊なgeometry、downstream simulation taskでどこまで崩れないかが問われる。
Developerにとって、codeとweightsは評価の会話を変える。Curated videoから品質を推測するだけでなく、camera path、lighting assumption、memory consistency、collision behaviorを直接試せるからだ。印象的なmedia modelと、stress testできるtoolの違いはここにある。
近い用途はgenerative mediaだけではない。探索可能な3D world modelは、game prototyping、synthetic data、robotics simulation、spatial reasoning research、interactive scene editingにまたがる。次に見るべき点は、予想外のcamera pathやuser interactionでもgeometry、physics cue、object consistencyを保てるかどうかだ。
Related Articles
Google DeepMindは、テキストや画像プロンプトから操作可能な環境を生成するGenie 3を公開した。720p・24fpsで1分超の一貫した世界維持を掲げ、Dream/Explore/Collaborateの3モードを提供する。
Meituan LongCat TeamがLongCat-Video-Avatar 1.5を公開した。Hugging FaceにはMITライセンス、Diffusers利用例、音声・画像・テキストから動画を作るタグが並ぶ。
Google DeepMindの世界モデルGenieがStreet Viewと統合された。地図のピンを選ぶだけで実際の場所を360度インタラクティブな空間に変換でき、Waymoの自動運転訓練にも活用される。