딥마인드 로봇 AI, 산업 계기판 읽기 정확도를 23%에서 93%까지 한 번에 끌어올렸다

Original: Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning View original →

Read in other languages: English日本語
Humanoid Robots Apr 15, 2026 By Insights AI 1 min read 1 views Source

Google DeepMind가 2026년 4월 14일 올린 Gemini Robotics-ER 1.6 글에서 가장 눈에 띄는 건 추상적인 reasoning 개선이 아니라 현장 작업으로 바로 읽히는 숫자다. 산업 설비의 게이지와 sight glass를 읽는 instrument reading 과제에서 DeepMind는 Gemini Robotics-ER 1.5가 23%, Gemini 3.0 Flash가 67%, Gemini Robotics-ER 1.6이 86%, 그리고 agentic vision을 켠 ER 1.6이 93%를 기록했다고 적었다. 로봇이 시설 점검과 모니터링 업무로 들어갈 때 가장 먼저 부딪히는 일이 이런 계기 해석이라는 점을 생각하면, 이 수치는 꽤 직설적이다.

DeepMind에 따르면 이번 버전은 spatial reasoning, multi-view understanding, pointing, counting, success detection 같은 능력을 끌어올렸다. 특히 instrument reading 자체가 Boston Dynamics와의 협업에서 나온 문제라는 점이 흥미롭다. 글에서는 Spot이 공장이나 시설을 돌며 온도계, 압력 게이지, 화학 sight glass 같은 장비를 촬영하고, 모델이 그 이미지를 해석해 읽어내는 흐름을 설명한다. 사람이 일일이 확대하고 판독한 뒤 기록하는 과정을 줄이려는 방향이 분명하다.

기술적으로는 agentic vision이 핵심이다. DeepMind는 모델이 작은 눈금을 더 정확히 보기 위해 화면을 확대하고, pointing과 code execution으로 비율과 간격을 계산한 뒤, world knowledge를 더해 최종 값을 해석한다고 설명한다. 이런 접근은 데모 영상보다 실제 사용 맥락에 더 가깝다. 게다가 ER 1.6은 Gemini APIGoogle AI Studio에서 바로 다뤄볼 수 있고, 시작용 Colab도 함께 공개돼 연구 블로그와 개발 실험 사이 간격을 줄였다.

안전성 관련 수치도 같이 나왔다. DeepMind는 ER 1.6을 자사 기준 가장 안전한 robotics model이라고 부르며, 실제 상해 보고서 기반 시나리오에서 Gemini 3.0 Flash 대비 hazard detection 성능이 텍스트는 +6%, 비디오는 +10% 올라갔다고 밝혔다. 이 수치만으로 현장 투입이 끝났다고 말할 수는 없지만, 회사가 무엇을 우선순위로 두는지는 분명해진다. 다음 관전 포인트는 Boston Dynamics 사례를 넘어 이런 benchmark 우위가 더 넓은 시설 점검 배치로 이어지느냐다.

Share: Long

Related Articles

Humanoid Robots Hacker News 2d ago 1 min read

HN이 주목한 지점은 새 robotics model 자체보다 “물리 세계에서 reasoning이 얼마나 빨라야 쓸모가 있나”였다. Google DeepMind는 Gemini Robotics-ER 1.6을 spatial reasoning, multi-view understanding, success detection, instrument reading에 맞춘 preview로 내놓았고, 댓글은 gauge-reading demo와 latency, 실제 robot deployment 사이의 간극을 파고들었다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.