Humanoid home-task 88% fail rate, r/singularity는 반쯤 찬 잔으로 봤다
Original: Humanoid Robots’ 88% Fail Rate: Completing Home Tasks View original →
같은 숫자가 만든 두 분위기
Humanoid robots가 home task의 88%를 실패한다는 r/singularity thread는 95점과 댓글 73개를 모았다. 같은 통계가 정반대의 분위기를 동시에 만들었기 때문이다. 연결된 Forbes article은 household humanoid가 집 안으로 들어오는 시대가 시작됐지만, 아직 common task 대부분을 실패한다고 설명한다. Reddit 사용자들은 곧바로 숫자를 뒤집어 읽었다. Benchmark 기준으로 약 12%의 home task를 이미 수행한다면, 그것은 나쁜 결과인가, 아니면 어려운 robotics 문제에서 보이는 첫 foothold인가.
이 모호함이 thread를 살렸다. Humanoid robotics에는 hype problem이 있지만, home robotics에는 외부인이 쉽게 과소평가하는 difficulty problem도 있다. Kitchen, laundry room, living room에는 deformable objects, partial visibility, clutter, liquids, glass, fabric, pets, humans가 뒤섞인다. 12% success rate는 product video 옆에서는 형편없어 보인다. 하지만 몇 년 전 general-purpose home robot의 거의 zero baseline과 비교하면 진전처럼 보일 수도 있다.
Reddit은 benchmark 맥락을 확인했다
가장 쓸 만한 댓글들은 숫자를 단순히 응원하거나 깎아내리지 않았다. 한 사용자는 underlying report가 BEHAVIOR-1K 시기의 data에 기대고 있으며, Figure 03, 1X Neo, Boston Dynamics의 최신 public work가 포함되지 않았을 수 있다고 지적했다. 이는 중요하다. Robotics progress는 고르지 않고 빠르게 움직인다. Benchmark snapshot은 정확할 수 있지만, 비교 대상 hardware와 policy가 이미 바뀌었다면 동시에 낡아 보일 수 있다.
반대 방향의 반응도 있었다. 지금이 최악의 상태일 것이라는 낙관이다. r/singularity에서 흔한 태도지만 완전히 비어 있지는 않다. Home-task robot은 vision-language-action model, teleoperation data, simulation, cheaper actuator, robust manipulation policy가 함께 좋아지며 개선된다. 질문은 fail rate가 내려가느냐가 아니라, carefully selected demo 밖에서 얼마나 빨리 내려가느냐다.
Hype보다 나은 대화
이 thread의 가치는 failure를 data로 다뤘다는 데 있다. 높은 fail rate는 domestic helper로 marketing되는 제품에 대한 기대를 낮춘다. 동시에 커뮤니티는 home task야말로 progress가 고르지 않게 도착할 messy long-tail environment라는 점도 봤다. Laundry folding, dishes clearing, cabinet opening, 사람 옆에서 안전하게 움직이는 일은 하나의 benchmark problem이 아니다. 수백 개의 edge case가 쌓인 묶음이다.
Humanoid robots를 추적하는 독자에게 유용한 결론은 panic도 dismiss도 아니다. 88% fail rate는 household autonomy가 아직 미숙하다는 뜻이다. 12% success rate는 baseline이 더 이상 zero가 아니라는 뜻이다. r/singularity의 논쟁은 그 사이에 있다. 이 분야는 아직 집 안에서 서툴지만, 이제는 측정되고 개선될 수 있을 만큼 서툴다.
Related Articles
r/singularity의 관심은 화려한 영상보다 21km 동안 드러나는 약점에 있다. Euronews 보도에 따르면 4월 19일 본 레이스를 앞두고 베이징 E-Town에서 70개 넘는 팀이 overnight test run에 참여했고, 약 40%의 팀이 fully autonomous navigation에 도전하고 있다.
r/singularity가 반응한 지점은 humanoid가 걷는 장면 자체보다 partial hardware failure를 견디는 설계였다. Figure 03의 balance policy demo는 로봇이 넘어지지 않는 것을 넘어, 고장 난 상태로 작업장을 빠져나올 수 있느냐를 묻는다.
2026년 3월 15일 r/singularity의 LATENT 글은 3,150 points와 376 comments를 기록했다. 이 연구는 경기 전체 motion capture 대신 5시간 분량의 human motion fragment로 humanoid tennis policy를 학습하는 접근을 제시한다.
Comments (0)
No comments yet. Be the first to comment!