ARC-AGI-3, interactive reasoning benchmark의 기준을 다시 세우다
Original: ARC-AGI-3 View original →
커뮤니티가 주목한 이유
Hacker News에서 ARC-AGI-3는 집계 시점 기준 238 points와 163 comments를 기록했다. ARC Prize Foundation은 2026년 3월 24일 ARC-AGI-3를 공개하면서, frontier agentic intelligence를 평가하기 위한 새로운 benchmark라고 설명했다. headline만 보면 또 하나의 AGI 평가 지표처럼 보이지만, 실제로는 기존 static benchmark와 평가 철학이 꽤 다르다.
ARC-AGI-3 docs는 이 benchmark를 novel, unseen environment에서 agent가 얼마나 일반화할 수 있는지 보는 interactive reasoning benchmark로 정의한다. Quickstart 문서가 강조하는 축은 exploration, percept-plan-action, memory, goal acquisition, alignment다. 즉 모델이 이미 알고 있는 정답을 꺼내는지보다, 새로운 환경에서 규칙을 추론하고 행동을 조정하는지를 본다.
무엇이 달라졌나
기술 보고서에 따르면 ARC-AGI-3는 language나 external knowledge에 기대지 않고, abstract하고 turn-based한 환경에서 내부 모델을 세우는 능력을 측정한다. 보고서는 2026년 3월 기준으로 human은 calibration 과정에서 환경을 100% 해결했지만, frontier AI system은 1% 미만 점수에 머문다고 설명한다. 점수는 단순 성공 여부가 아니라 human action baseline 대비 얼마나 효율적으로 푸는지를 본다.
- 레벨별 score는 second-best human action count를 기준으로 효율을 계산한다.
- 후반 레벨일수록 가중치를 더 크게 둬서 얕은 요령보다 실제 generalization을 더 반영한다.
- toolkit과 REST API가 제공돼 agent 연구자가 재현 실험을 빠르게 시작할 수 있다.
이 구조는 coding benchmark나 QA benchmark에서 잘 보이지 않는 실패 양상을 드러낼 수 있다. agent가 탐색을 못 하는지, memory가 약한지, 목표를 잘못 해석하는지, 혹은 행동 계획을 세우지 못하는지를 비교적 선명하게 보여주기 때문이다.
왜 중요한가
ARC-AGI-1과 ARC-AGI-2가 reasoning model의 진전을 감지하는 데 유용했다면, ARC-AGI-3는 한 단계 더 나아가 실제 agent behavior를 본다. software tool, browser, simulation처럼 열린 환경에서 일해야 하는 system에게는 이 변화가 더 현실적이다. HN 토론도 leaderboard 숫자 자체보다, 현재 agent stack이 task-specific scaffolding 없이 이런 환경을 다룰 수 있느냐에 초점이 맞춰졌다.
Original sources: ARC Prize overview, ARC-AGI-3 docs, technical report
Related Articles
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.
AI 고객 에이전트 플랫폼 Sierra가 Tiger Global·GV 주도로 9억 5천만 달러를 조달해 기업가치 158억 달러를 인정받았다. OpenAI 이사회 의장 Bret Taylor가 공동 창업한 이 회사의 ARR은 1억 5천만 달러로, 기업용 AI 에이전트 수요 급증을 반영한다.
Comments (0)
No comments yet. Be the first to comment!