딥마인드 로봇 AI, 산업 계기판 읽기 정확도를 23%에서 93%까지 한 번에 끌어올렸다

Google DeepMind가 2026년 4월 14일 올린 Gemini Robotics-ER 1.6 글에서 가장 눈에 띄는 건 추상적인 reasoning 개선이 아니라 현장 작업으로 바로 읽히는 숫자다. 산업 설비의 게이지와 sight glass를 읽는 instrument reading 과제에서 DeepMind는 Gemini Robotics-ER 1.5가 23%, Gemini 3.0 Flash가 67%, Gemini Robotics-ER 1.6이 86%, 그리고 agentic vision을 켠 ER 1.6이 93%를 기록했다고 적었다. 로봇이 시설 점검과 모니터링 업무로 들어갈 때 가장 먼저 부딪히는 일이 이런 계기 해석이라는 점을 생각하면, 이 수치는 꽤 직설적이다.

DeepMind에 따르면 이번 버전은 spatial reasoning, multi-view understanding, pointing, counting, success detection 같은 능력을 끌어올렸다. 특히 instrument reading 자체가 Boston Dynamics와의 협업에서 나온 문제라는 점이 흥미롭다. 글에서는 Spot이 공장이나 시설을 돌며 온도계, 압력 게이지, 화학 sight glass 같은 장비를 촬영하고, 모델이 그 이미지를 해석해 읽어내는 흐름을 설명한다. 사람이 일일이 확대하고 판독한 뒤 기록하는 과정을 줄이려는 방향이 분명하다.

기술적으로는 agentic vision이 핵심이다. DeepMind는 모델이 작은 눈금을 더 정확히 보기 위해 화면을 확대하고, pointing과 code execution으로 비율과 간격을 계산한 뒤, world knowledge를 더해 최종 값을 해석한다고 설명한다. 이런 접근은 데모 영상보다 실제 사용 맥락에 더 가깝다. 게다가 ER 1.6은 Gemini API와 Google AI Studio에서 바로 다뤄볼 수 있고, 시작용 Colab도 함께 공개돼 연구 블로그와 개발 실험 사이 간격을 줄였다.

안전성 관련 수치도 같이 나왔다. DeepMind는 ER 1.6을 자사 기준 가장 안전한 robotics model이라고 부르며, 실제 상해 보고서 기반 시나리오에서 Gemini 3.0 Flash 대비 hazard detection 성능이 텍스트는 +6%, 비디오는 +10% 올라갔다고 밝혔다. 이 수치만으로 현장 투입이 끝났다고 말할 수는 없지만, 회사가 무엇을 우선순위로 두는지는 분명해진다. 다음 관전 포인트는 Boston Dynamics 사례를 넘어 이런 benchmark 우위가 더 넓은 시설 점검 배치로 이어지느냐다.

딥마인드 로봇 AI, 산업 계기판 읽기 정확도를 23%에서 93%까지 한 번에 끌어올렸다

Related Articles

Boston Dynamics Atlas, Google DeepMind Gemini 탑재하고 양산 돌입

Gemini Robotics-ER 1.6, 로봇 계기판 93%·위험 감지 10% 개선

보스턴다이나믹스 아틀라스의 새 동작, 레딧 로봇 커뮤니티 4,000점 넘게 달궈

Comments (0)

Leave a Comment

Related Articles

Boston Dynamics Atlas, Google DeepMind Gemini 탑재하고 양산 돌입
Humanoid Robots Feb 9, 2026 1 min read

Gemini Robotics-ER 1.6, 로봇 계기판 93%·위험 감지 10% 개선
Humanoid Robots Apr 14, 2026 1 min read

보스턴다이나믹스 아틀라스의 새 동작, 레딧 로봇 커뮤니티 4,000점 넘게 달궈
Humanoid Robots Reddit May 6, 2026 1 min read