AGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.
#arc-agi
RSS FeedAGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.
ARC-AGI-3 최신 벤치마크에서 GPT-5.5가 0.43%, Claude Opus 4.7이 0.18%를 기록하며 차세대 AGI 평가의 극단적 난이도를 재확인했다.
ARC-AGI-3 최신 벤치마크에서 GPT-5.5가 0.43%, Claude Opus 4.7이 0.18%를 기록하며 차세대 AGI 평가의 극단적 난이도를 재확인했다.
2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.
ARC Prize의 ARC-AGI 3 공개 직후 r/singularity는 새 벤치마크가 정답 여부뿐 아니라 행동 수 효율까지 점수에 반영한다는 점에 주목했다. 요지는 현재 frontier AI가 여전히 일반화된 상호작용 추론에서 사람과 큰 격차를 보인다는 것이다.
ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.
ARC Prize가 2026년 3월 24일 공개한 ARC-AGI-3는 static task보다 interactive reasoning을 전면에 둔 새 benchmark다. HN에서는 238 points와 163 comments를 기록하며 agent 평가 방식의 전환점으로 주목받았다.