Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMindは2026年3月17日のX投稿で、Kaggleと共同でAI向けの新しいcognitive evaluationを作るグローバルhackathonを開始し、賞金総額20万ドルを用意すると発表した。この投稿は同日に公開されたGoogle DeepMindのブログ記事と直結しており、その記事はAGIへの進捗を測るためのcognitive frameworkを紹介している。
その記事でGoogle DeepMindは、AGIへの前進を単一のbenchmarkやleaderboardだけで判断すべきではないと論じる。代わりに、attention、learning、memory、reasoning、executive functions、problem solving、social cognitionを含む10のcognitive ability taxonomyを提示する。狙いは、個別benchmarkの勝敗を一般知能の完全な代理指標とみなすのではなく、より広いcognitive task群でmodelの性能をhuman baselineと比較することにある。
Kaggleの部分は、その枠組みを公開competitionへ変える実装フェーズだ。Google DeepMindによると、hackathonでは現在もっとも評価ギャップが大きい5領域、learning、metacognition、attention、executive functions、social cognitionのevaluation設計をcommunityに求める。参加者はKaggleのCommunity Benchmarks platformでfrontier modelに対して提出物を試すことができ、応募期間は3月17日から4月16日まで、結果発表は6月1日の予定だ。
つまり今回のX発表は、単なるbenchmarkイベントの宣伝ではない。AGI evaluation設計の一部をより広い研究者・builder communityへ開きつつ、何をもって“general” intelligenceと呼ぶのかについて、より明示的な語彙を作ろうとする試みだ。最終的にこのframeworkが影響力を持つかどうかは、集まるtaskの質にかかっているが、Google DeepMindがmodel releaseの速度と同じくらいpublic evaluation designを重要視していることは明確だ。
Related Articles
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。
Google DeepMindのAI数学研究エージェントAletheiaが、FirstProof Challengeで専門数学者が出題した研究レベルの数学問題10問中6問を自律的に解決しました。テレンス・タオらの数学者もその意義を認め、AIを価値ある研究協力者と評価しています。