Gemini Robotics-ER 1.6、計器読取93%へ 安全判定も底上げ
Original: We’re rolling out an upgrade designed to help robots reason about the physical world. 🤖 Gemini Robotics-ER 1.6 has significantly better visual and spatial understanding in order to plan and complete more useful tasks. Here’s why this is important 🧵 View original →
Google DeepMindの新しいXスレッドが重いのは、ロボット向けモデル更新をそのまま現場タスクへ結びつけているからだ。実運用で難しいのは、命令文を理解することだけではない。圧力計を読み取り、複数カメラの視点を統合し、作業が終わったかどうかを自分で判断する必要がある。元ツイートでDeepMindは、Gemini Robotics-ER 1.6がロボットの「physical world」理解を強めるアップグレードだと書き、その後のスレッドで具体例を並べた。
“help robots reason about the physical world”
最も強い材料は、リンク先の公式ブログにある。計器読取タスクでは、Gemini Robotics-ER 1.5が23%、Gemini 3.0 Flashが67%、Gemini Robotics-ER 1.6が86%、さらにagentic visionを有効にした1.6では93%まで伸びたという。スレッドではこれに加え、動画中のhuman injury risk検知が10%向上し、液体を扱わない、20kgを超える物体を持たないといった物理制約もより守れると説明している。つまり今回の更新は単なるロボット向け名称変更ではなく、counting、pointing、multi-view reasoning、instrument reading、success detectionを一段上の推論層でまとめようとするものだ。
GoogleDeepMindのXアカウントは、完成したブログ記事と開発者向け導線を短いスレッドでつなぐ役割を果たすことが多い。今回もブログ、Gemini API、Google AI Studio、サンプルColabが一式で示されている。特にブログはBoston Dynamicsとの関係を補強しており、Spotが産業施設を巡回して各種計器の画像を取得しているため、instrument readingが作られたベンチマークではなく実際のinspection workflowに近いことがわかる。DeepMindはまた、コード実行を含む「agentic vision」を使うと説明しており、複雑なゲージ画像を数値へ落とし込む手順もある程度見えてくる。
次に注目すべきは再現性だ。Googleの既存パートナー以外でも、異なるカメラ配置やロボット構成で93%の計器読取や安全性向上が再現できるのか。そこが確認できれば、Gemini Robotics-ER 1.6は派手なデモではなく、現場ロボットの個別調整コストを下げる実質的な前進として評価されるはずだ。元ツイート: GoogleDeepMind on X via Nitter.
Related Articles
Google DeepMindの新しいロボットモデルは、産業現場の計器読取を23%から93%まで押し上げ、embodied reasoningの前進を数字で示した。4月14日に公開されたGemini Robotics-ER 1.6はGemini APIとGoogle AI Studioでもすぐ試せる。
Boston DynamicsのヒューマノイドロボットAtlasの最新デモ動画がr/singularityで4,100点以上を獲得し、ロボット工学コミュニティを再び驚かせた。
NVIDIAはOmniverse、Cosmos、Isaac、Metropolis、Alpamayo、Jetsonをagent-callableなopen source physical AI skillとして公開した。Pegatron 67%、Delta 17%、Foxconn 3%など製造現場の数値も示された。
Comments (0)
No comments yet. Be the first to comment!