Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMindは2026年3月17日のX投稿で、Kaggleと共同でAI向けの新しいcognitive evaluationを作るグローバルhackathonを開始し、賞金総額20万ドルを用意すると発表した。この投稿は同日に公開されたGoogle DeepMindのブログ記事と直結しており、その記事はAGIへの進捗を測るためのcognitive frameworkを紹介している。
その記事でGoogle DeepMindは、AGIへの前進を単一のbenchmarkやleaderboardだけで判断すべきではないと論じる。代わりに、attention、learning、memory、reasoning、executive functions、problem solving、social cognitionを含む10のcognitive ability taxonomyを提示する。狙いは、個別benchmarkの勝敗を一般知能の完全な代理指標とみなすのではなく、より広いcognitive task群でmodelの性能をhuman baselineと比較することにある。
Kaggleの部分は、その枠組みを公開competitionへ変える実装フェーズだ。Google DeepMindによると、hackathonでは現在もっとも評価ギャップが大きい5領域、learning、metacognition、attention、executive functions、social cognitionのevaluation設計をcommunityに求める。参加者はKaggleのCommunity Benchmarks platformでfrontier modelに対して提出物を試すことができ、応募期間は3月17日から4月16日まで、結果発表は6月1日の予定だ。
つまり今回のX発表は、単なるbenchmarkイベントの宣伝ではない。AGI evaluation設計の一部をより広い研究者・builder communityへ開きつつ、何をもって“general” intelligenceと呼ぶのかについて、より明示的な語彙を作ろうとする試みだ。最終的にこのframeworkが影響力を持つかどうかは、集まるtaskの質にかかっているが、Google DeepMindがmodel releaseの速度と同じくらいpublic evaluation designを重要視していることは明確だ。
Related Articles
Google DeepMindは2026年3月17日、AGI進捗を評価するためのcognitive frameworkを公開した。単一のbenchmark scoreではなく、人間の認知能力を分解したcapability profileで議論しようとする提案だ。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
次世代AGIベンチマークARC-AGI-3にて、GPT-5.5が0.43%、Claude Opus 4.7が0.18%という結果となり、このベンチマークの高難度が改めて証明された。
Comments (0)
No comments yet. Be the first to comment!