Gemini Robotics、Spotにplain Englishで家の片付けを指示できるようにした
Original: We teamed up with Boston Dynamics to power their robot Spot with Gemini Robotics embodied reasoning models. View original →
Google DeepMindの4月16日のX postは、Gemini Roboticsをすでにindustrial settingsで使われるphysical robotへ結びつけた点でhigh-signalだ。source tweetはBoston DynamicsのSpotを動かすために "Gemini Robotics embodied reasoning models" を使ったと書いている。作成時刻は2026-04-16 13:03:32 UTCで、freshness window内にある。 source tweetも併記する。
follow-up tweetはbridgeの中身を説明している。teamは複雑なcodeを書く代わりにplain EnglishでSpotとやり取りし、Gemini Robotics ERにmove、photo capture、object grabbingのbasic toolsを渡した。リンク先のBoston Dynamics blog postによると、demoは2025 hackathonから生まれ、Spot SDKを使ってGemini Roboticsのoutputsをrobot API callsへ変換した。Gemini RoboticsがAPIで公開されたtools以外のcapabilityを作れないよう、boundariesを置いた点も重要だ。
architecture detailは重要だ。modelがrobotをdirectかつunconstrainedにcontrolしないよう分離しているためである。Boston Dynamicsはtool interfaceを説明する。Gemini Roboticsがnatural-language requestを解釈し、exposed capabilitiesから選び、Spotのexisting APIsが具体的なrobot actionsを実行する。このsplitはapplied roboticsでよく使われるpatternだ。developersがlimitsをenforceし、decisionsをlogし、plan失敗時にrecoverする場所を持てるからである。headline capabilityはrobotが何でも理解することではなく、foundation modelがtested robot primitivesの上でuseful tasksを組み立てることに近い。
Google DeepMindのアカウントはresearch、model release、applied AI demoをよく投稿する。今回のBoston Dynamics記事は、単なるvideoではなくnavigation、image capture、object identification、grasping、placementを組み合わせるtool layerの実験であることを示した。次に見るべきは、これがlab demoで終わるのか、SpotとOrbit customers向けのdeveloper patternになるのかだ。latency、failure recovery、real spacesでrobot armを動かすpermission designが実用化の焦点になる。
Related Articles
Google DeepMindの新しいロボットモデルは、産業現場の計器読取を23%から93%まで押し上げ、embodied reasoningの前進を数字で示した。4月14日に公開されたGemini Robotics-ER 1.6はGemini APIとGoogle AI Studioでもすぐ試せる。
Physical Intelligenceはπ0.7が新しいlanguage commandとtraining dataにないtaskで初期のcompositional generalizationを示したと説明した。Laundry foldingでは、UR5e用task dataなしでexpert teleoperatorsのzero-shot successに並んだ。
HNが見ていたのはmodelそのものより、「物理世界で使えるreasoningはどれだけ速くなければならないか」だった。Google DeepMindはGemini Robotics-ER 1.6をspatial reasoning、multi-view understanding、success detection、instrument reading向けのpreviewとして示し、コメント欄ではgauge-reading demo、latency、実deploymentの距離が議論された。
Comments (0)
No comments yet. Be the first to comment!