ARC-AGI-3 최신 결과: GPT-5.5는 0.43%, Claude Opus 4.7은 0.18%
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
ARC-AGI-3 현황
r/singularity에 354점으로 공유된 최신 업데이트에 따르면 ARC-AGI-3 벤치마크 결과: GPT-5.5 High 0.43%, Claude Opus 4.7 0.18%.
ARC-AGI-3이란?
ARC Prize 팀이 개발한 AGI 평가 벤치마크로 전작보다 훨씬 어렵게 설계됐다. 인간은 쉽게 통과하지만 현재 최강 AI 모델들도 1% 미만의 정확도를 보인다.
시사점
GPT-5.5와 Claude Opus 4.7 같은 모델들이 일상적 언어 과제에서는 인간 수준을 넘어섰음에도, 진정한 추론 능력을 측정하는 ARC-AGI-3 앞에서는 무력함을 드러낸다.
Related Articles
Claude Fable 5가 GDPval-AA 1932점으로 에이전트형 지식 업무 벤치마크 1위에 올랐다. Anthropic 모델이 상위 4개 중 3개를 차지했다는 점은 장시간 업무형 모델 경쟁이 성능표 중심으로 재편되고 있음을 보여준다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.