Physical Intelligence π0.7, robot skill 재조합을 보였다

Original: π 0.7: a Steerable Model with Emergent Capabilities View original →

Read in other languages: English日本語
Humanoid Robots Apr 18, 2026 By Insights AI 1 min read Source

Physical Intelligence의 π0.7은 robot demos가 자주 막히던 병목을 겨냥한다. task마다 별도 specialist model을 만들고 data를 다시 모으는 방식에서 벗어날 수 있는지다. 회사는 2026년 4월 16일 research post에서 π0.7을 general-purpose vision-language-action model로 설명하며, training data에 없던 새 language command와 task를 수행할 수 있다고 밝혔다.

핵심은 compositional generalization이다. Physical Intelligence는 π0.7이 여러 task에서 배운 skill을 recombine해 new kitchen appliances 사용 같은 문제를 풀고, laundry folding data가 없는 new robot에서도 folding을 수행했다고 설명했다. 회사는 이를 LLM이 알고 있는 개념을 새 형식으로 조합하는 능력에 비유하지만, robotics에서는 physical motion, robot morphology, scene variation이 들어가 훨씬 더 다루기 어렵다.

가장 중요한 detail은 UR5e transfer

π0.7은 bimanual UR5e system에서 laundry를 fold하도록 평가됐다. Source robot과 UR5e는 size, positioning, morphology가 크게 다르고, 회사는 이 task에 대한 UR5e training data를 모으지 않았다고 적었다. 그럼에도 π0.7의 success rate는 source robot에서 data를 수집했던 expert human teleoperators가 UR5e에서 처음 시도했을 때의 zero-shot success rate와 맞먹었다. 그 teleoperators의 평균 teleoperation experience는 375 hours였다.

방법론도 단순히 더 큰 dataset만을 말하지 않는다. π0.7은 language, metadata, control modality labels, visual subgoal images처럼 다양한 prompt structures를 training에 넣는다. 이 prompt는 무엇을 할지뿐 아니라 어떻게 할지를 지정한다. Test time에는 standard language instructions 외에도 desired strategy와 lightweight world model이 만든 visual subgoal을 받을 수 있다.

다만 이 결과를 deployed robot product로 읽으면 안 된다. Source는 “first signs”와 “initial signs”라는 조심스러운 표현을 쓴다. 아직 외부 replication, standardized robotics benchmark, 비용과 failure mode 공개가 필요하다. 그래도 의미는 크다. 만약 한 model이 task-specific specialist와 비슷한 성능을 내면서 unseen combinations를 다룰 수 있다면, embodied AI의 bottleneck은 task마다 새 model을 만드는 일에서 instruction design, safety envelope, evaluation으로 이동할 수 있다.

Share: Long

Related Articles

Humanoid Robots Hacker News 2d ago 1 min read

HN이 주목한 지점은 새 robotics model 자체보다 “물리 세계에서 reasoning이 얼마나 빨라야 쓸모가 있나”였다. Google DeepMind는 Gemini Robotics-ER 1.6을 spatial reasoning, multi-view understanding, success detection, instrument reading에 맞춘 preview로 내놓았고, 댓글은 gauge-reading demo와 latency, 실제 robot deployment 사이의 간극을 파고들었다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.