Gemini Robotics, Spot에게 plain-English 집안일 수행까지 맡겼다
Original: We teamed up with Boston Dynamics to power their robot Spot with Gemini Robotics embodied reasoning models. View original →
Google DeepMind의 4월 16일 X post는 Gemini Robotics를 이미 industrial setting에서 쓰이는 physical robot과 연결했다는 점에서 high-signal이다. source tweet은 Boston Dynamics의 Spot을 움직이기 위해 "Gemini Robotics embodied reasoning models"를 썼다고 밝혔다. 게시 시각은 2026-04-16 13:03:32 UTC로 freshness window 안이다. source tweet도 함께 남긴다.
follow-up tweet은 bridge 구조를 설명한다. 팀은 복잡한 code를 쓰는 대신 plain English로 Spot과 상호작용했고, Gemini Robotics ER에는 move, photo capture, object grabbing을 위한 basic tools가 주어졌다. 연결된 Boston Dynamics blog post는 이 demo가 2025 hackathon에서 시작됐고, Spot SDK를 사용해 Gemini Robotics의 outputs를 robot API calls로 바꿨다고 설명한다. 또한 Gemini Robotics가 API로 노출된 tools 밖의 capability를 invent할 수 없도록 boundaries를 둔 점도 적었다.
architecture detail도 중요하다. model이 robot을 direct, unconstrained control하지 않도록 분리했기 때문이다. Boston Dynamics는 tool interface를 설명한다. Gemini Robotics가 natural-language request를 해석하고 exposed capabilities 중에서 고르며, Spot의 existing APIs가 concrete robot actions를 실행한다. 이런 split은 applied robotics에서 흔한 pattern이다. 개발자가 limits를 enforce하고, decisions를 log하며, plan 실패 시 recover할 지점을 제공하기 때문이다. headline capability는 robot이 모든 것을 이해한다는 뜻이 아니라, foundation model이 tested robot primitives 위에서 useful tasks를 조합한다는 뜻에 가깝다.
Google DeepMind 계정은 보통 research, model release, applied AI demo를 다룬다. Boston Dynamics 글은 이 사례가 단순 video가 아니라 navigation, image capture, object identification, grasping, placement로 구성된 tool layer 실험임을 보여준다. 다음 관전점은 이것이 lab demo에 머무를지, Spot과 Orbit customers를 위한 반복 가능한 developer pattern이 될지다. latency, failure recovery, real spaces에서 robot arm을 움직일 때의 permission design이 핵심 risk로 남는다.
Related Articles
Google DeepMind는 로봇용 embodied reasoning을 데모 수준에서 실제 작업 쪽으로 더 밀어 넣고 있다. 연결된 스레드와 블로그에 따르면 Gemini Robotics-ER 1.6은 agentic vision 사용 시 계기판 판독 성공률 93%를 기록했고, 영상 기반 injury risk 감지는 Gemini 3.0 Flash 대비 10% 개선됐다.
Google DeepMind의 최신 로봇 모델은 산업 현장의 계기판 읽기 과제를 23%에서 93%까지 밀어 올리며 embodied reasoning의 실제 진전을 숫자로 보여줬다. 4월 14일 올라온 Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio에서도 바로 다뤄볼 수 있다.
Physical Intelligence는 π0.7이 task별 specialist training 없이도 새 language command와 unseen task를 처리하는 초기 compositional generalization을 보였다고 밝혔다. Laundry folding에서는 UR5e task data 없이 expert teleoperator의 zero-shot success와 맞먹었다.
Comments (0)
No comments yet. Be the first to comment!