Google DeepMind、AGI進捗を測るcognitive frameworkとKaggle hackathonを公開
Original: Measuring progress toward AGI: A cognitive framework View original →
何が提案されたか
Google DeepMindは2026年3月17日、AGIの進捗を測るためのcognitive frameworkを公開した。既存のbenchmark leaderboard中心の見方ではAGI議論が単純化されすぎるとして、よりcognitive scienceに根ざした評価の枠組みを示している。
このframeworkが挙げる10のcanonical cognitive capabilitiesは、perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionだ。研究チームは、個別benchmarkの点数だけではなく、AI systemがこれらの能力で人間分布に対してどこに位置するかを見るべきだと述べている。
評価はどう行うのか
論文では、broad task poolとheld-out evaluation setを作り、同じ課題でhuman dataも集め、AI performanceを人間分布に対して位置づける3-stage protocolを提案している。さらにDeepMindは、frameworkをpaperで終わらせずKaggle hackathonも同時に開始した。対象はlearning、metacognition、attention、executive functions、social cognitionの5能力で、submissionsは2026年3月17日から4月16日まで、結果発表は6月1日、prize poolは$200,000とされている。
この点が重要なのは、AGI議論を「どのmodelが一つの試験で勝ったか」というheadlineから外し、どの種類のcognitionが測定され、どこに評価の空白があるかを細かく見る方向へ押し出しているからだ。特にmetacognitionやexecutive functionsは、現在の商用benchmarkで相対的に手薄な領域として扱われている。
なぜ重要か
今後、frontier modelの比較が単一scoreではなくcapability profile中心へ移れば、研究者、enterprise buyer、policy関係者は各systemの強みと弱みをより具体的に読めるようになる。さらにKaggle hackathonを通じて評価設計そのものを外部研究者へ開いたことは、benchmark governanceが戦略領域になりつつあることを示している。
Related Articles
Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
Google DeepMindのAI数学研究エージェントAletheiaが、FirstProof Challengeで専門数学者が出題した研究レベルの数学問題10問中6問を自律的に解決しました。テレンス・タオらの数学者もその意義を認め、AIを価値ある研究協力者と評価しています。
Comments (0)
No comments yet. Be the first to comment!