ARC-AGI-3, interactive reasoning benchmark의 기준을 다시 세우다
Original: ARC-AGI-3 View original →
커뮤니티가 주목한 이유
Hacker News에서 ARC-AGI-3는 집계 시점 기준 238 points와 163 comments를 기록했다. ARC Prize Foundation은 2026년 3월 24일 ARC-AGI-3를 공개하면서, frontier agentic intelligence를 평가하기 위한 새로운 benchmark라고 설명했다. headline만 보면 또 하나의 AGI 평가 지표처럼 보이지만, 실제로는 기존 static benchmark와 평가 철학이 꽤 다르다.
ARC-AGI-3 docs는 이 benchmark를 novel, unseen environment에서 agent가 얼마나 일반화할 수 있는지 보는 interactive reasoning benchmark로 정의한다. Quickstart 문서가 강조하는 축은 exploration, percept-plan-action, memory, goal acquisition, alignment다. 즉 모델이 이미 알고 있는 정답을 꺼내는지보다, 새로운 환경에서 규칙을 추론하고 행동을 조정하는지를 본다.
무엇이 달라졌나
기술 보고서에 따르면 ARC-AGI-3는 language나 external knowledge에 기대지 않고, abstract하고 turn-based한 환경에서 내부 모델을 세우는 능력을 측정한다. 보고서는 2026년 3월 기준으로 human은 calibration 과정에서 환경을 100% 해결했지만, frontier AI system은 1% 미만 점수에 머문다고 설명한다. 점수는 단순 성공 여부가 아니라 human action baseline 대비 얼마나 효율적으로 푸는지를 본다.
- 레벨별 score는 second-best human action count를 기준으로 효율을 계산한다.
- 후반 레벨일수록 가중치를 더 크게 둬서 얕은 요령보다 실제 generalization을 더 반영한다.
- toolkit과 REST API가 제공돼 agent 연구자가 재현 실험을 빠르게 시작할 수 있다.
이 구조는 coding benchmark나 QA benchmark에서 잘 보이지 않는 실패 양상을 드러낼 수 있다. agent가 탐색을 못 하는지, memory가 약한지, 목표를 잘못 해석하는지, 혹은 행동 계획을 세우지 못하는지를 비교적 선명하게 보여주기 때문이다.
왜 중요한가
ARC-AGI-1과 ARC-AGI-2가 reasoning model의 진전을 감지하는 데 유용했다면, ARC-AGI-3는 한 단계 더 나아가 실제 agent behavior를 본다. software tool, browser, simulation처럼 열린 환경에서 일해야 하는 system에게는 이 변화가 더 현실적이다. HN 토론도 leaderboard 숫자 자체보다, 현재 agent stack이 task-specific scaffolding 없이 이런 환경을 다룰 수 있느냐에 초점이 맞춰졌다.
Original sources: ARC Prize overview, ARC-AGI-3 docs, technical report
Related Articles
2026년 3월 18일 NVIDIA NemoClaw 관련 Hacker News 게시물은 231 points와 185 comments를 기록했다. 이 alpha 프로젝트는 NVIDIA OpenShell과 Agent Toolkit 위에 OpenClaw를 얹어 policy control과 cloud-routed inference를 갖춘 sandboxed environment에서 always-on assistant를 실행하도록 설계됐다.
Cloudflare는 2026년 3월 11일 AI Security for Apps를 generally available로 전환했다고 발표했다. 동시에 AI endpoint discovery를 Free, Pro, Business 플랜까지 무료로 열고, custom topics detection과 IBM·Wiz 연동을 추가했다.
NVIDIAAIDev는 X에서 Andrej Karpathy 연구실이 첫 DGX Station GB300 시스템을 받았다고 밝혔다. NVIDIA의 GTC 업데이트에 따르면 이 deskside 시스템은 748GB coherent memory, 최대 20 petaflops FP4 성능, 최대 1조 parameter 모델 지원을 제공한다.
Comments (0)
No comments yet. Be the first to comment!