#arc-agi

LLM X/Twitter Jun 3, 2026 1 min read

Opus 4.8, ARC-AGI-3에서 1.5%·약 $10K로 새 SOTA 기록

ARC Prize가 Opus 4.8을 ARC-AGI-3 새 SOTA로 기록하며 benchmark 경쟁의 기준을 다시 낮은 숫자로 보여줬다. 점수는 1.5%, 비용은 약 $10K로, 향상은 분명하지만 일반 지능과는 아직 거리가 있다.

#anthropic #opus-4-8 #arc-agi

LLM Reddit May 3, 2026 1 min read

ARC-AGI-3 최신 결과: GPT-5.5는 0.43%, Claude Opus 4.7은 0.18%

AGI 수준 평가 벤치마크 ARC-AGI-3에서 GPT-5.5 High가 0.43%, Claude Opus 4.7이 0.18%를 기록했다. 최강 모델들도 이 벤치마크 앞에서는 사실상 제로에 수렴한다.

#arc-agi #benchmark #gpt-5

AI Reddit Mar 30, 2026 1 min read

r/singularity, Symbolica의 ARC-AGI-3 36.08% 결과와 비용 효율에 주목

2026년 3월 r/singularity에서 203 points와 82 comments를 모은 글은 Symbolica의 Agentica SDK가 ARC-AGI-3에서 미검증 36.08%를 기록했다는 주장에 주목했다. 핵심 수치는 182개의 playable level 중 113개 해결, 25개 게임 중 7개 완주, 그리고 chain-of-thought baseline 대비 훨씬 낮은 보고 비용이었다.

#arc-agi #agents #benchmark

AI Reddit Mar 30, 2026 1 min read

r/singularity가 주목한 ARC-AGI 3, 행동 효율까지 묻는 새 일반화 벤치마크

ARC Prize의 ARC-AGI 3 공개 직후 r/singularity는 새 벤치마크가 정답 여부뿐 아니라 행동 수 효율까지 점수에 반영한다는 점에 주목했다. 요지는 현재 frontier AI가 여전히 일반화된 상호작용 추론에서 사람과 큰 격차를 보인다는 것이다.

#arc-agi #benchmarks #reasoning

AI Hacker News Mar 26, 2026 2 min read

Hacker News가 주목한 ARC-AGI-3, 상호작용과 적응을 중심에 둔 새 agent benchmark

ARC Prize는 ARC-AGI-3를 static puzzle 정답률이 아니라 새로운 환경 안에서의 planning, memory compression, belief updating을 측정하는 interactive reasoning benchmark로 설명한다. Hacker News에서는 이 점이 실제 agent behavior를 더 잘 드러낸다는 이유로 큰 관심을 모았다.

#arc-agi #benchmark #agents