Opus 4.8, ARC-AGI-3에서 1.5%·약 $10K로 새 SOTA 기록

ARC-AGI-3에서 “최고 성능”이라는 말은 여전히 아주 낮은 숫자와 함께 온다. ARC Prize는 2026년 6월 1일 X에서 Anthropic Opus 4.8이 새 SOTA라고 적었고, 점수와 비용을 동시에 공개했다. 핵심 수치는 “Score: 1.5%, ~$10K”다. 이 숫자는 모델이 진전하고 있다는 증거이면서, 동시에 ARC 계열 과제가 아직 얼마나 어려운지를 보여준다.

“objects & systems, not pictures”

ARC Prize 계정은 François Chollet과 Mike Knoop이 이끄는 ARC Prize의 공식 채널로, benchmark 결과와 분석을 자주 공개한다. 이번 트윗은 단순 순위표보다 분석 문장이 더 중요했다. Opus 4.8은 환경을 그림 조각이 아니라 object와 system으로 읽는 쪽으로 한 abstraction 올라갔다고 평가됐다. 이전 Opus 4.7보다 초기 level에서는 더 잘 작동했지만, 여전히 잘못된 sub-goal에 매달리는 failure mode가 남았다는 설명도 붙었다.

이 맥락은 ARC-AGI-3가 일반적인 coding benchmark와 다르다는 점에서 중요하다. SWE Bench류 평가는 소프트웨어 수정 능력을 보지만, ARC 계열은 새로운 규칙을 적은 예시에서 추론하고 일반화하는 능력을 시험한다. 1.5%라는 점수는 headline으로는 작아 보이지만, 평가가 의도적으로 인간에게 쉬우면서 모델에는 낯선 문제를 겨냥한다는 점에서 의미가 있다. 비용이 약 $10K로 제시된 것도 중요하다. 단순 accuracy가 아니라 inference budget과 search 전략이 같이 성능을 만든다는 뜻이다.

다음 관전점은 Opus 4.8의 실패 사례가 줄어드는 방식이다. 모델이 object-level abstraction을 더 잘 잡더라도, 잘못된 목표를 오래 추적하면 agentic system에서는 비용과 시간이 빠르게 늘어난다. 독립 재현, 다른 모델의 같은 benchmark 제출, 그리고 cost-normalized ranking이 이어질 때 이번 SOTA의 실제 무게가 분명해질 것이다. 출처: ARC Prize X 글

Opus 4.8, ARC-AGI-3에서 1.5%·약 $10K로 새 SOTA 기록

Related Articles

Claude 30만 대화 분석, 언어와 모델별 가치 성향 차이를 수치화한 Anthropic 연구

Anthropic, 자율 AI 에이전트의 새 오작동 4가지 사례 공개

OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성