Qwen-Robot Suite、見るAIから動くAIへ移る3モデル構成

roboticsの争点は、物体を認識できるかだけではなく、その認識からどこへ移動し、何を操作し、次に何が起きるかを扱えるかへ移っている。Alibaba Cloudが2026年6月17日に公開したQwen-Robot Suiteは、この問題を3つのfoundation modelで整理した。

構成はQwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorldだ。Qwen-RobotNavはagentic navigation system向けのnavigation model、Qwen-RobotManipは汎化を狙うrobotic manipulation foundation model、Qwen-RobotWorldは言語条件から物理シーンをシミュレーションするvideo world modelとして説明されている。Qwenチームは、物理世界を見て推論できても、それだけでは行動にならないという問題を前面に出した。

関連する紹介記事では、より具体的なworkflowも示された。たとえば「Cotti Coffeeに緑の傘が置き忘れられていないか確認して」という依頼で、汎用Qwen modelが上位の計画役になり、Qwen-RobotNavが現場を移動する実行toolになるという例だ。

このreleaseの意味は、robot demo単体よりもagent stackの方向性にある。現実のロボットでは、知覚、移動、操作、記憶、シミュレーションが別々に動くほど現場投入が難しくなる。Qwen-Robot Suiteは、汎用モデルが物理世界向けの専門モデルをtoolとして呼び出す構造を示している。

もちろん、研究成果と実運用の間には距離がある。実機ではsensor noise、hardware差、遅延、安全制約、予測不能な環境が重なる。technical reportやbenchmarkだけでなく、複数のrobot bodyと実環境で同じ安定性を出せるかが次の確認点になる。

Humanoid Robots Hacker News 3d ago 1 min read

Gemini Robotics 2、焦点は手先から全身制御へ

議論の中心は、歩行、把持、計画、複数ロボットの協調を一つのモデル群でどこまで扱えるかにあった。

#google #gemini #robotics

Humanoid Robots Hacker News Apr 16, 2026 1 min read

Gemini Robotics-ER 1.6を、HNはロボット推論の速度問題として見た

HNが見ていたのはmodelそのものより、「物理世界で使えるreasoningはどれだけ速くなければならないか」だった。Google DeepMindはGemini Robotics-ER 1.6をspatial reasoning、multi-view understanding、success detection、instrument reading向けのpreviewとして示し、コメント欄ではgauge-reading demo、latency、実deploymentの距離が議論された。

#robotics #gemini #embodied-ai

Humanoid Robots Apr 18, 2026 1 min read

Physical Intelligence π0.7、未学習taskでrobot skillを再結合

Physical Intelligenceはπ0.7が新しいlanguage commandとtraining dataにないtaskで初期のcompositional generalizationを示したと説明した。Laundry foldingでは、UR5e用task dataなしでexpert teleoperatorsのzero-shot successに並んだ。

#robotics #embodied-ai #vla

Related Articles

Gemini Robotics 2、焦点は手先から全身制御へ

Gemini Robotics-ER 1.6を、HNはロボット推論の速度問題として見た

Physical Intelligence π0.7、未学習taskでrobot skillを再結合