DeepMindのロボットAI、産業用計器の読取精度を23%から93%まで一気に押し上げた

Original: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning View original →

Read in other languages: 한국어English
Humanoid Robots Apr 15, 2026 By Insights AI 1 min read 1 views Source

Google DeepMindが2026年4月14日に公開した Gemini Robotics-ER 1.6 で目を引くのは、抽象的なreasoning改善ではなく、現場の作業にそのままつながる数字だ。産業設備のゲージや sight glass を読む instrument reading で、DeepMindは Gemini Robotics-ER 1.5 が23%、Gemini 3.0 Flash が67%、Gemini Robotics-ER 1.6 が86%、さらに agentic vision を有効にした ER 1.6 が93%だったと示した。ロボットが点検や監視の仕事に入っていくとき、最初にぶつかるのがこうした計器の解釈だと考えると、この差はかなり具体的だ。

DeepMindによれば、今回の版では spatial reasoning、multi-view understanding、pointing、counting、success detection が強化された。特に興味深いのは、instrument reading という課題そのものが Boston Dynamics との密な協業から出てきた点だ。記事では、Spot が施設内を移動し、温度計、圧力ゲージ、化学用 sight glass などを撮影し、その画像をモデルが読んでいく流れが説明されている。人が拡大して読み取り、記録していく作業をどこまで減らせるかが狙いだ。

技術面での鍵は agentic vision にある。DeepMindは、モデルが小さな目盛りを正確に読むために画像を拡大し、pointing と code execution で比率や間隔を計算し、さらに world knowledge を重ねて最終値を解釈すると書いている。派手なデモ映像より、実運用に近い説明だ。加えて ER 1.6 は Gemini APIGoogle AI Studio で利用でき、導入用のColabも公開されている。研究記事から開発者の試用までの距離はかなり短くなった。

もう一つの見どころは安全性だ。DeepMindは ER 1.6 を自社で最も安全な robotics model と位置づけ、実際の負傷報告を基にしたシナリオで、Gemini 3.0 Flash を基準に hazard detection がテキストで +6%、動画で +10%伸びたとしている。この数字だけで配備準備が整ったとは言えないが、同社が何を優先しているかは分かる。次に見るべきなのは、このbenchmark上の優位が Boston Dynamics の例を超えて、より広い現場点検の導入に結びつくかどうかだ。

Share: Long

Related Articles

Humanoid Robots Hacker News 2d ago 1 min read

HNが見ていたのはmodelそのものより、「物理世界で使えるreasoningはどれだけ速くなければならないか」だった。Google DeepMindはGemini Robotics-ER 1.6をspatial reasoning、multi-view understanding、success detection、instrument reading向けのpreviewとして示し、コメント欄ではgauge-reading demo、latency、実deploymentの距離が議論された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.