ARC-AGI-3でGPT-5.5もClaude Opus 4.7も1%以下のスコア
Original: ARC-AGI-3 Update (GPT-5.5 High and Opus4.7) View original →
ARC-AGI-3の難易度は本物
最先端の言語モデルでさえ、ARC-AGI-3ではほぼゼロに近いスコアしか出せない。最新のコミュニティ共有データによると、GPT-5.5 Highが0.43%、Claude Opus 4.7が0.18%を記録した。人間が難なくこなせるタスクで、最強のAIモデルがほぼ無力という衝撃的な結果だ。
ARC-AGI-3とは何か
ARC(Abstraction and Reasoning Corpus)-AGIは、抽象的なパターン認識と推論を評価するベンチマークだ。バージョン3は従来より大幅に難度が上がっており、「3歳の子供でも解ける問題をAIが解けないなら、現在のモデルに何か根本的な問題がある」というコミュニティの指摘が的を射ている。
予想外の逆転現象
注目すべきはOpus 4.7がOpus 4.6より低いスコアを記録した点だ。最新モデルが必ずしも全ベンチマークで改善するわけではないことを示しており、現在の訓練アプローチが真の抽象推論能力の向上に繋がっていない可能性を示唆している。
AGIへの道のり
「80%を達成するモデルが現れるのに何ヶ月かかるのか」というコミュニティの問いが、現状を端的に表している。ARC-AGI-3はAGIへの真の進捗を測る重要な指標として定着しつつあるが、現在の結果はまだ道半ばであることを示している。
Related Articles
次世代AGIベンチマークARC-AGI-3にて、GPT-5.5が0.43%、Claude Opus 4.7が0.18%という結果となり、このベンチマークの高難度が改めて証明された。
米政府機関が、セキュリティ審査で止まりがちだった生成AI導入を次の段階へ進めやすくなる。OpenAIはChatGPT EnterpriseとAPI PlatformでFedRAMP 20x Moderateを取得し、GPT-5.5と今後のCodex Cloudまで視野に入る環境を整えた。
選挙シーズンのAI安全策は、理念より測定値が重くなりつつある。Anthropicは2026年4月24日、Claudeの選挙関連評価を公開し、600件の有害・正当プロンプト評価でOpus 4.7とSonnet 4.6がそれぞれ100%と99.8%、影響工作シミュレーションでも90%と94%の適切応答率だったと示した。
Comments (0)
No comments yet. Be the first to comment!