Claude Opus 4.7, 로봇개 프로그래밍 실험서 이전 인간팀보다 약 20배 빠른 완주
Original: Claude Opus 4.7 Runs Robodog Task About 20x Faster Than Prior Human Team View original →
소프트웨어 벤치마크를 넘어 로봇 하드웨어까지 다루는 에이전트 평가가 빨라지고 있다. Anthropic은 Project Fetch 2단계에서 Claude Opus 4.7이 로봇개 프로그래밍 과제를 단독으로 수행했고, 작년 Opus 4.1을 도구로 쓴 최고 인간팀보다 약 20배 빠른 시간을 기록했다고 밝혔다.
Anthropic의 원문 트윗은 Opus 4.7이 "~20x faster"였다고 적었다. 다만 같은 문맥에서 로봇개가 결국 비치볼을 가져오는 데는 실패했다고 밝혀, 이번 결과가 완성된 로봇 지능보다 에이전트가 낯선 하드웨어를 얼마나 빨리 조작 코드로 바꾸는지를 보여주는 사례임을 분명히 했다.
Project Fetch는 Anthropic Frontier Red Team이 진행한 실험으로, 로봇 전문성이 없는 연구자들이 사족보행 로봇을 움직이도록 프로그래밍하는 과제를 중심에 둔다. 첫 실험은 Claude를 쓰는 팀과 쓰지 않는 팀의 차이를 봤고, 이번 2단계는 더 강한 모델이 사람 없이 어느 정도까지 작업을 밀고 갈 수 있는지에 초점을 맞춘다.
20배라는 수치는 자극적이지만, 더 중요한 신호는 실패의 모양이다. 에이전트가 API 문서와 센서 피드백을 읽고 빠르게 코드를 고치는 능력은 강화됐지만, 실제 세계에서는 마찰, 지연, 위치 오차, 안전 제약이 곧바로 성능을 갉아먹는다. 다음에 봐야 할 것은 성공 여부만이 아니라 반복 횟수, 하드웨어 손상 위험, 사람의 개입 지점, 그리고 같은 절차가 다른 로봇 플랫폼에서도 재현되는지다.
Related Articles
Qwen이 로봇용 foundation model을 navigation, manipulation, world modeling 세 갈래로 묶었다. Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld는 physical AI의 병목을 “인식”에서 “행동”으로 옮겨 놓는 release다.
NVIDIA가 Omniverse, Cosmos, Isaac, Metropolis, Alpamayo를 agent가 호출할 수 있는 open source physical AI skill로 묶었다. Pegatron 67%, Delta 17%, Foxconn 3% 같은 제조 현장 수치가 함께 제시됐다.
NVIDIA가 Unitree H2 Plus, Sharpa 5-finger hands, Jetson AGX Thor T5000을 묶은 open humanoid reference design을 공개했다. 75 degrees of freedom, 2,070 FP4 TFLOPS, 약 3시간 배터리가 연구실의 비교 가능한 humanoid 실험 기준을 겨냥한다.