Gemini Robotics-ER 1.6, HN은 로봇 추론의 속도 문제로 봤다
Original: Gemini Robotics-ER 1.6 View original →
HN thread에서 Gemini Robotics-ER 1.6이 받은 관심은 “Google이 새 model을 공개했다”보다 더 실용적인 질문에 가까웠다. Google DeepMind 글은 이 preview model이 spatial reasoning, multi-view understanding, task planning, success detection 같은 robotics reasoning에 집중한다고 설명한다. 특히 Boston Dynamics와의 협업 과정에서 나온 instrument reading, 즉 gauge와 sight glass를 읽는 use case가 커뮤니티의 눈을 끌었다.
DeepMind는 Gemini Robotics-ER 1.6을 robot의 high-level reasoning model로 배치한다. 빠른 low-level control loop를 직접 대체하기보다, camera view를 해석하고, plan의 다음 단계를 판단하고, 필요한 tool이나 vision-language-action model을 호출하는 쪽에 가깝다. 게시글은 Gemini Robotics-ER 1.5와 Gemini 3.0 Flash 대비 pointing, counting, success detection에서 좋아졌다고 설명하며, analog instrument를 읽는 예시와 multi-view success detection을 보여준다.
HN 댓글의 반응은 바로 latency로 향했다. gauge를 읽고 Python script를 만들고 vision task를 돌린 뒤 답을 내는 흐름은 강력해 보이지만, physical robot에서는 “맞는 답”만큼 “제때 오는 답”도 중요하다. 한 댓글은 이런 orchestration이 사람이나 동물 같은 행동을 흉내 내는 쪽으로 갈 수 있지만 inference가 충분히 빨라야 한다고 봤다. 다른 댓글은 robotics model에서 궁금한 수치는 benchmark score보다 Hz, 즉 control loop와 reasoning loop의 속도라고 짚었다.
또 다른 흥미로운 갈래는 analog world의 잔존이었다. 일부 사용자는 pressure gauge를 camera로 읽는 기능이 실제로 필요하다고 했고, 다른 쪽은 애초에 sensor가 digital data를 보내야 하는 것 아니냐고 물었다. 산업 현장에는 아직 legacy instrument가 많고, robot이 사람 대신 눈으로 확인해야 하는 상황도 남아 있다. 그래서 이 demo는 화려한 humanoid보다 지루한 inspection task에서 embodied AI가 먼저 돈값을 할 수 있다는 신호로 읽힌다.
Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio preview로 제공된다. 아직 이것만으로 일반 가정용 robot이 바로 등장한다는 뜻은 아니다. HN이 끌어낸 핵심은 오히려 더 냉정하다. robotics AI의 다음 병목은 “볼 수 있나”와 “계획할 수 있나”를 넘어, 얼마나 안정적으로, 얼마나 빨리, 얼마나 실패를 감지하면서 물리 세계에 연결되느냐가 될 가능성이 크다.
Related Articles
Google DeepMind의 최신 로봇 모델은 산업 현장의 계기판 읽기 과제를 23%에서 93%까지 밀어 올리며 embodied reasoning의 실제 진전을 숫자로 보여줬다. 4월 14일 올라온 Gemini Robotics-ER 1.6은 Gemini API와 Google AI Studio에서도 바로 다뤄볼 수 있다.
Google DeepMind는 로봇용 embodied reasoning을 데모 수준에서 실제 작업 쪽으로 더 밀어 넣고 있다. 연결된 스레드와 블로그에 따르면 Gemini Robotics-ER 1.6은 agentic vision 사용 시 계기판 판독 성공률 93%를 기록했고, 영상 기반 injury risk 감지는 Gemini 3.0 Flash 대비 10% 개선됐다.
Physical Intelligence는 π0.7이 task별 specialist training 없이도 새 language command와 unseen task를 처리하는 초기 compositional generalization을 보였다고 밝혔다. Laundry folding에서는 UR5e task data 없이 expert teleoperator의 zero-shot success와 맞먹었다.
Comments (0)
No comments yet. Be the first to comment!