ARC-AGI-3 앞에서 GPT-5.5도 Claude Opus 4.7도 나란히 0%대
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
ARC-AGI-3는 농담이 아니다
가장 강력한 최신 언어 모델들도 ARC-AGI-3 앞에서는 사실상 0점에 가깝다. r/singularity 커뮤니티가 공유한 최신 업데이트에 따르면 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다.
ARC-AGI-3란 무엇인가
ARC-AGI(Abstraction and Reasoning Corpus)는 패턴 인식과 추상적 추론을 평가하는 벤치마크다. 3버전은 기존보다 훨씬 어려운 과제를 포함하며, 인간은 높은 점수를 기록하지만 LLM은 고전하는 구조다. "3살짜리 아이도 풀 수 있는 문제를 AI가 못 푼다"는 커뮤니티 반응이 이를 잘 설명한다.
흥미로운 역전 현상
Opus 4.7이 Opus 4.6보다 낮은 점수를 기록한 것도 화제다. 최신 모델이 반드시 모든 벤치마크에서 개선되지 않는다는 점이 다시 확인됐다. 이는 현재 LLM 훈련 방식의 한계 — 특히 진정한 추상적 추론 능력 부재 — 를 시사한다.
AGI까지 얼마나 남았나
"80%를 달성하는 모델이 나오려면 몇 달이나 걸릴까?"라는 커뮤니티 질문이 현 상황을 요약한다. ARC-AGI-3은 AGI를 향한 실제 진척도를 가늠하는 까다로운 잣대로 자리잡고 있다.
Related Articles
ARC-AGI-3 최신 벤치마크에서 GPT-5.5가 0.43%, Claude Opus 4.7이 0.18%를 기록하며 차세대 AGI 평가의 극단적 난이도를 재확인했다.
미국 공공기관이 보안 승인 장벽 때문에 멈춰 있던 생성형 AI 도입을 더 빨리 실제 업무로 옮길 수 있게 됐다. OpenAI는 ChatGPT Enterprise와 API Platform이 FedRAMP 20x Moderate를 통과해, 연방기관이 GPT-5.5와 향후 Codex Cloud까지 검토할 수 있는 길을 열었다.
선거 시즌 AI 안전은 선언보다 숫자가 더 중요해지고 있다. Anthropic는 2026년 4월 24일 Claude의 선거 관련 테스트 결과를 공개하며, 600개 프롬프트 평가에서 Opus 4.7과 Sonnet 4.6이 각각 100%와 99.8%로 대응했고, 영향력 공작 시뮬레이션에서도 90%와 94%의 적절한 응답 비율을 기록했다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!