ARC-AGI-3でGPT-5.5もClaude Opus 4.7も1%以下のスコア

ARC-AGI-3の難易度は本物

最先端の言語モデルでさえ、ARC-AGI-3ではほぼゼロに近いスコアしか出せない。最新のコミュニティ共有データによると、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録した。人間が難なくこなせるタスクで、最強のAIモデルがほぼ無力という衝撃的な結果だ。

ARC-AGI-3とは何か

ARC（Abstraction and Reasoning Corpus）-AGIは、抽象的なパターン認識と推論を評価するベンチマークだ。バージョン3は従来より大幅に難度が上がっており、「3歳の子供でも解ける問題をAIが解けないなら、現在のモデルに何か根本的な問題がある」というコミュニティの指摘が的を射ている。

予想外の逆転現象

注目すべきはOpus 4.7がOpus 4.6より低いスコアを記録した点だ。最新モデルが必ずしも全ベンチマークで改善するわけではないことを示しており、現在の訓練アプローチが真の抽象推論能力の向上に繋がっていない可能性を示唆している。

AGIへの道のり

「80%を達成するモデルが現れるのに何ヶ月かかるのか」というコミュニティの問いが、現状を端的に表している。ARC-AGI-3はAGIへの真の進捗を測る重要な指標として定着しつつあるが、現在の結果はまだ道半ばであることを示している。

AI Reddit 2h ago 1 min read