AGI能力評価ベンチマークARC-AGI-3の最新結果で、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録。最先端モデルでも事実上ゼロに近いスコアが続いている。
#arc-agi
RSS FeedAGI能力評価ベンチマークARC-AGI-3の最新結果で、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録。最先端モデルでも事実上ゼロに近いスコアが続いている。
次世代AGIベンチマークARC-AGI-3にて、GPT-5.5が0.43%、Claude Opus 4.7が0.18%という結果となり、このベンチマークの高難度が改めて証明された。
次世代AGIベンチマークARC-AGI-3にて、GPT-5.5が0.43%、Claude Opus 4.7が0.18%という結果となり、このベンチマークの高難度が改めて証明された。
2026年3月のr/singularityで203 pointsと82 commentsを集めた投稿は、SymbolicaのAgentica SDKがARC-AGI-3で未検証の36.08%を記録したという主張に注目した。主要な数字は、182のplayable level中113を解き、25ゲーム中7つを完了し、chain-of-thought baselineよりかなり低い報告コストだった。
ARC PrizeによるARC-AGI 3公開直後、r/singularityはinteractive environmentとaction-efficient scoringへの転換に注目した。要点は、frontier AIが未知環境での一般化・探索・計画ではまだ大きく遅れているということだ。
ARC PrizeはARC-AGI-3を、static puzzleの正答率ではなく、新しい環境の中でのplanning、memory compression、belief updatingを測るinteractive reasoning benchmarkとして位置づけている。Hacker Newsでは、その点が実際のagent behaviorをよりよく映すとして強い関心を集めた。
ARC Prizeは2026年3月24日にARC-AGI-3を公開し、novel environmentでのagentic intelligenceを測るbenchmarkとして位置付けた。Hacker Newsでは238 points、163 commentsを集め、static task中心の評価からの転換として受け止められている。