Gemini Robotics、Spotにplain Englishで家の片付けを指示できるようにした

Google DeepMindの4月16日のX postは、Gemini Roboticsをすでにindustrial settingsで使われるphysical robotへ結びつけた点でhigh-signalだ。source tweetはBoston DynamicsのSpotを動かすために "Gemini Robotics embodied reasoning models" を使ったと書いている。作成時刻は2026-04-16 13:03:32 UTCで、freshness window内にある。 source tweetも併記する。

follow-up tweetはbridgeの中身を説明している。teamは複雑なcodeを書く代わりにplain EnglishでSpotとやり取りし、Gemini Robotics ERにmove、photo capture、object grabbingのbasic toolsを渡した。リンク先のBoston Dynamics blog postによると、demoは2025 hackathonから生まれ、Spot SDKを使ってGemini Roboticsのoutputsをrobot API callsへ変換した。Gemini RoboticsがAPIで公開されたtools以外のcapabilityを作れないよう、boundariesを置いた点も重要だ。

architecture detailは重要だ。modelがrobotをdirectかつunconstrainedにcontrolしないよう分離しているためである。Boston Dynamicsはtool interfaceを説明する。Gemini Roboticsがnatural-language requestを解釈し、exposed capabilitiesから選び、Spotのexisting APIsが具体的なrobot actionsを実行する。このsplitはapplied roboticsでよく使われるpatternだ。developersがlimitsをenforceし、decisionsをlogし、plan失敗時にrecoverする場所を持てるからである。headline capabilityはrobotが何でも理解することではなく、foundation modelがtested robot primitivesの上でuseful tasksを組み立てることに近い。

Google DeepMindのアカウントはresearch、model release、applied AI demoをよく投稿する。今回のBoston Dynamics記事は、単なるvideoではなくnavigation、image capture、object identification、grasping、placementを組み合わせるtool layerの実験であることを示した。次に見るべきは、これがlab demoで終わるのか、SpotとOrbit customers向けのdeveloper patternになるのかだ。latency、failure recovery、real spacesでrobot armを動かすpermission designが実用化の焦点になる。

Gemini Robotics、Spotにplain Englishで家の片付けを指示できるようにした

Related Articles

Google DeepMind、Gemini Robotics-ER 2を発表

Apollo 2のRobot ParkデータがGemini Robotics訓練を現場寄りに変える理由

DeepMindのロボットAI、産業用計器の読取精度を23%から93%まで一気に押し上げた