#arc-agi

RSS Feed

LLM X/Twitter Jun 3, 2026 1 min read

Opus 4.8、ARC-AGI-3で1.5%・約$10Kの新SOTAに到達

ARC PrizeはAnthropic Opus 4.8をARC-AGI-3の新SOTAとしたが、数字はbenchmarkの難しさも示す。スコアは1.5%、コストは約$10Kで、進歩はobjectとsystemの抽象化に結びついている。

#anthropic #opus-4-8 #arc-agi

LLM Reddit May 3, 2026 1 min read

ARC-AGI-3最新スコア: GPT-5.5は0.43%、Claude Opus 4.7は0.18%

AGI能力評価ベンチマークARC-AGI-3の最新結果で、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録。最先端モデルでも事実上ゼロに近いスコアが続いている。

#arc-agi #benchmark #gpt-5

AI Reddit Mar 30, 2026 1 min read

r/singularity、SymbolicaのARC-AGI-3 36.08%結果と低コスト性に注目

2026年3月のr/singularityで203 pointsと82 commentsを集めた投稿は、SymbolicaのAgentica SDKがARC-AGI-3で未検証の36.08%を記録したという主張に注目した。主要な数字は、182のplayable level中113を解き、25ゲーム中7つを完了し、chain-of-thought baselineよりかなり低い報告コストだった。

#arc-agi #agents #benchmark

AI Reddit Mar 30, 2026 1 min read

r/singularityが注目したARC-AGI 3、行動効率まで測る新しい一般化評価

ARC PrizeによるARC-AGI 3公開直後、r/singularityはinteractive environmentとaction-efficient scoringへの転換に注目した。要点は、frontier AIが未知環境での一般化・探索・計画ではまだ大きく遅れているということだ。

#arc-agi #benchmarks #reasoning

AI Hacker News Mar 26, 2026 1 min read

Hacker Newsで注目を集めたARC-AGI-3、相互作用と適応を軸にした新しいagent benchmark

ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。

#arc-agi #benchmark #agents