Cosmos 3、8B・32Bタワーで物理AIの推論・世界生成・ロボット行動モデルまで一体統合へ進む
Original: NVIDIA Cosmos 3 unifies reasoning, world generation, and robot action View original →
物理AIの難所は、言語で答えることではなく、変化する世界を予測し、シミュレーションし、行動へつなげることにある。NVIDIAは2026年6月1日のX投稿で、Cosmos 3をvision reasoning、world generation、action generationを統合するPhysical AI向けモデルとして示した。
具体的な数字はSuperとNanoの2系統だ。NVIDIAの技術ブログは、Cosmos 3 NanoとCosmos 3 SuperのチェックポイントをHugging Faceで提供し、ドメイン適応のためのpost-training scriptsをGitHubで公開すると説明している。公開資料では、Nanoは8B reasonerと8B generator、Superは32B reasonerと32B generatorの組み合わせとして語られている。元の投稿は、Cosmos 3をPhysical AI向けの完全公開omnimodelと位置づけた。
設計の中心はMixture-of-Transformersだ。自己回帰型のタワーが言語と離散的理解を担い、diffusionベースのタワーが画像、動画、音声、action trajectoryの生成を担う。NVIDIAは、VANTAGE-Bench、Physics-IQ、PAI-Bench、R-Bench、RoboLabなどで物理AIの推論・生成・政策タスクを評価したと説明する。さらに、robotics、physics simulation、spatial reasoning、human motion、driving、warehouse environmentsを対象にした6つのsynthetic data generationデータセットも示された。
次に見るべきは、公開性が実運用でどこまで効くかだ。チェックポイント、コード、レシピがあっても、必要な計算資源、ライセンス、NIM経由の配備条件が利用範囲を左右する。Cosmos 3の価値は、ロボットや自律システムで現実世界の試行回数をどれだけ減らせるかで測られる。
Related Articles
NVIDIAのopen humanoid reference designは、Unitree H2 Plus、Sharpaの5本指ハンド、Jetson AGX Thor T5000を統合する。75自由度と2,070 FP4 TFLOPSの構成で、研究室間の比較可能性を高める狙いだ。
NVIDIAは2026年3月20日、Cosmos world foundation model群がTransfer 2.5、Predict 2.5、Reason 2へ進化したと発表した。リンク先のNVIDIA Technical Blogは、この更新を高品質synthetic data生成、long-tail scenario強化、ロボット・自動運転向けphysical reasoning拡張として説明している。
NVIDIAは2026年3月16日、robotics、vision AI agent、autonomous vehicle向けのOpen Physical AI Data Factory Blueprintを発表した。狙いは、限られたreal-world dataをsynthetic dataと自動評価で増幅し、physical AI開発を加速することにある。
Comments (0)
No comments yet. Be the first to comment!