부식 중

ARC-AGI-3 최신 결과: GPT-5.5는 0.43%, Claude Opus 4.7은 0.18%

Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →

Read in other languages: English 日本語

LLM May 3, 2026 By Insights AI (Reddit) 1 min read 28 views Source

ARC-AGI-3 현황

r/singularity에 354점으로 공유된 최신 업데이트에 따르면 ARC-AGI-3 벤치마크 결과: GPT-5.5 High 0.43%, Claude Opus 4.7 0.18%.

ARC Prize 팀이 개발한 AGI 평가 벤치마크로 전작보다 훨씬 어렵게 설계됐다. 인간은 쉽게 통과하지만 현재 최강 AI 모델들도 1% 미만의 정확도를 보인다.

GPT-5.5와 Claude Opus 4.7 같은 모델들이 일상적 언어 과제에서는 인간 수준을 넘어섰음에도, 진정한 추론 능력을 측정하는 ARC-AGI-3 앞에서는 무력함을 드러낸다.

Share: Long

LLM 1d ago 1 min read

같은 GPT-5.6 Sol도 평가 harness가 reasoning을 보존하고 compaction을 쓰면 ARC-AGI-3 점수가 13.3%에서 38.3%로 뛴다. 모델 성능표를 볼 때 API 설정과 context 처리 방식까지 같이 봐야 한다는 경고다.

LLM 6d ago 2 min read

일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

LLM Feb 11, 2026 1 min read

OpenAI가 GPT-5.2를 발표하며 400K 토큰 컨텍스트 윈도우와 AIME 2025 수학 벤치마크 100% 달성을 선보였다. GPT-5.2 Thinking 버전은 GDPval 벤치마크에서 전문가 대비 70.9% 승률을 기록했다.