Gemini Robotics-ER 1.6を、HNはロボット推論の速度問題として見た
Original: Gemini Robotics-ER 1.6 View original →
Gemini Robotics-ER 1.6をめぐる HN thread は、見出しよりもembodied AIの難所に集中した。Google DeepMindの記事では、このpreview modelをspatial reasoning、multi-view understanding、task planning、success detectionに重点を置くものとして説明している。特にBoston Dynamicsとの協業から出たinstrument reading、つまりgaugeやsight glassを読むuse caseが注目を集めた。
DeepMindの位置づけでは、Gemini Robotics-ER 1.6はrobotのhigh-level reasoning層だ。低レベルのcontrol loopをすべて置き換えるというより、camera viewを解釈し、taskが成功したかを判断し、必要ならSearch、vision-language-action model、ユーザー定義functionを呼ぶ。記事はGemini Robotics-ER 1.5やGemini 3.0 Flashと比べ、pointing、counting、success detectionで改善したと説明している。
HNのコメントはすぐlatencyへ向かった。gaugeを読み、コードを組み立て、vision処理を実行し、答えを返す流れは便利そうだが、robotでは正しい答えだけでなく間に合う答えが必要になる。ある読者は、こうしたorchestrationが人間や動物らしい行動の模倣に近づくにはinferenceがもっと速くなる必要があると見た。別の読者は、robotics modelで本当に知りたいのはscoreだけでなくHzだと指摘した。
analog instrumentの例も現実味があった。pressure gaugeをcameraで読めるなら普通に欲しいという声がある一方、そもそもsensorがdigital dataを出すべきではないかという疑問も出た。だが工場や設備にはlegacy instrumentが残っている。人が目で確認している退屈なinspection taskこそ、派手なhumanoidより先にembodied AIが役立つ場所かもしれない。
Gemini Robotics-ER 1.6はGemini APIとGoogle AI Studio previewで使える。ただし、これだけで家庭用robotがすぐ来るという話ではない。HNが引き出した見方はもっと地に足がついている。robotics AIの次の試験は、見ること、数えること、成功を検出することを、どれだけ速く安定して物理世界へ接続できるかだ。
Related Articles
Google DeepMindの新しいロボットモデルは、産業現場の計器読取を23%から93%まで押し上げ、embodied reasoningの前進を数字で示した。4月14日に公開されたGemini Robotics-ER 1.6はGemini APIとGoogle AI Studioでもすぐ試せる。
Google DeepMindはembodied reasoningを研究デモから現場寄りのロボティクスへ押し出している。スレッドと公式ブログによれば、Gemini Robotics-ER 1.6はagentic vision利用時に計器読取で93%に達し、動画でのinjury risk検知はGemini 3.0 Flash比で10%改善した。
Physical Intelligenceはπ0.7が新しいlanguage commandとtraining dataにないtaskで初期のcompositional generalizationを示したと説明した。Laundry foldingでは、UR5e用task dataなしでexpert teleoperatorsのzero-shot successに並んだ。
Comments (0)
No comments yet. Be the first to comment!