Opus 4.8, ARC-AGI-3에서 1.5%·약 $10K로 새 SOTA 기록
Original: Opus 4.8 set a new ARC-AGI-3 SOTA at 1.5 percent for about $10K View original →
ARC-AGI-3에서 “최고 성능”이라는 말은 여전히 아주 낮은 숫자와 함께 온다. ARC Prize는 2026년 6월 1일 X에서 Anthropic Opus 4.8이 새 SOTA라고 적었고, 점수와 비용을 동시에 공개했다. 핵심 수치는 “Score: 1.5%, ~$10K”다. 이 숫자는 모델이 진전하고 있다는 증거이면서, 동시에 ARC 계열 과제가 아직 얼마나 어려운지를 보여준다.
“objects & systems, not pictures”
ARC Prize 계정은 François Chollet과 Mike Knoop이 이끄는 ARC Prize의 공식 채널로, benchmark 결과와 분석을 자주 공개한다. 이번 트윗은 단순 순위표보다 분석 문장이 더 중요했다. Opus 4.8은 환경을 그림 조각이 아니라 object와 system으로 읽는 쪽으로 한 abstraction 올라갔다고 평가됐다. 이전 Opus 4.7보다 초기 level에서는 더 잘 작동했지만, 여전히 잘못된 sub-goal에 매달리는 failure mode가 남았다는 설명도 붙었다.
이 맥락은 ARC-AGI-3가 일반적인 coding benchmark와 다르다는 점에서 중요하다. SWE Bench류 평가는 소프트웨어 수정 능력을 보지만, ARC 계열은 새로운 규칙을 적은 예시에서 추론하고 일반화하는 능력을 시험한다. 1.5%라는 점수는 headline으로는 작아 보이지만, 평가가 의도적으로 인간에게 쉬우면서 모델에는 낯선 문제를 겨냥한다는 점에서 의미가 있다. 비용이 약 $10K로 제시된 것도 중요하다. 단순 accuracy가 아니라 inference budget과 search 전략이 같이 성능을 만든다는 뜻이다.
다음 관전점은 Opus 4.8의 실패 사례가 줄어드는 방식이다. 모델이 object-level abstraction을 더 잘 잡더라도, 잘못된 목표를 오래 추적하면 agentic system에서는 비용과 시간이 빠르게 늘어난다. 독립 재현, 다른 모델의 같은 benchmark 제출, 그리고 cost-normalized ranking이 이어질 때 이번 SOTA의 실제 무게가 분명해질 것이다. 출처: ARC Prize X 글
Related Articles
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
Anthropic과 PwC가 전략적 제휴를 확대해 Claude Code와 Cowork를 미국팀 시작으로 글로벌 전체에 배포하며, 3만 명 인증 과정과 공동 AI 센터를 설립한다. 보험 인수 주기는 10주에서 10일로 단축됐다.
Anthropic의 새 플래그십 모델 Opus 4.6이 100만 토큰 컨텍스트 윈도우와 함께 ARC AGI 2에서 68.8%를 기록하며 GPT-5.2(54.2%)를 크게 앞서고, 금융·법률 실무 벤치마크에서 144 Elo 차이로 우위를 점했다.
Comments (0)
No comments yet. Be the first to comment!