ARC-AGI-3 최신 결과: GPT-5.5는 0.43%, Claude Opus 4.7은 0.18%
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
ARC-AGI-3 현황
r/singularity에 354점으로 공유된 최신 업데이트에 따르면 ARC-AGI-3 벤치마크 결과: GPT-5.5 High 0.43%, Claude Opus 4.7 0.18%.
ARC-AGI-3이란?
ARC Prize 팀이 개발한 AGI 평가 벤치마크로 전작보다 훨씬 어렵게 설계됐다. 인간은 쉽게 통과하지만 현재 최강 AI 모델들도 1% 미만의 정확도를 보인다.
시사점
GPT-5.5와 Claude Opus 4.7 같은 모델들이 일상적 언어 과제에서는 인간 수준을 넘어섰음에도, 진정한 추론 능력을 측정하는 ARC-AGI-3 앞에서는 무력함을 드러낸다.
Related Articles
AGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.
왜 중요한가: AI 에이전트가 채팅 답변을 넘어 실제 거래 협상으로 들어가고 있기 때문이다. Anthropic은 사내 장터 실험에서 69개 에이전트가 500개 넘는 물품 사이에서 186건의 거래를 마무리했고, 총 거래액은 4,000달러를 조금 넘었다고 공개했다.
HN은 leaderboard 숫자만 보고 움직이지 않았다. Dirac가 더 적은 토큰, hash-anchored edit, AST 기반 문맥 선택으로 coding agent 성능을 끌어올렸다는 주장에 시선이 몰렸다.
Comments (0)
No comments yet. Be the first to comment!