Google DeepMind、AGI進捗を測るcognitive frameworkを提案

Google DeepMindは2026年3月17日、AGIへの進捗をどのように測るべきかについての新しい論文を公開し、現在のAGI議論には持続的なempirical frameworkが欠けていると主張した。この発表は、AGIが近いとか、単一のbenchmarkで結論を出せると宣言するものではない。そうではなく、cognitive scienceを土台にAI systemの能力をより体系的に記述し、比較する評価層を作ろうという提案だ。DeepMindはこれを、frontier modelの能力主張と本格的な一般知能評価の間をつなぐ測定インフラの問題として捉えている。

論文は、一般知能に重要だと考える10のcognitive abilityを挙げている。perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionである。さらに三段階の評価プロトコルを提案する。第一に、各能力をカバーする広い課題群でAI systemを評価し、held-out setでcontaminationを抑える。第二に、同じ課題について人口統計的に代表性のある成人サンプルからhuman baselineを集める。第三に、モデルの成績を単純なraw scoreではなく、人間の成績分布に対する相対的位置として解釈する。

この考え方を実務に落とし込むために、DeepMindはKaggleと共同でhackathonも始めた。評価の空白が大きいlearning、metacognition、attention、executive functions、social cognitionの五つの領域で、communityに新しいevaluation設計を促すものだ。参加者はKaggle Community Benchmarks platform上でbenchmarkを構築し、frontier model lineupに対して試験できる。Googleによれば、賞金総額は20万ドルで、応募期間は3月17日から4月16日、結果発表は6月1日だという。

重要性

benchmark設計は、lab、investor、regulatorがfrontier modelの進歩をどう読むかを左右する基準になっている。
DeepMindは単一スコアのleaderboardよりhuman-relative measurementを重視している。
Kaggle hackathonによって、抽象的なframeworkがcommunityベースのevaluation構築へ接続された。

今回の発表はAGI達成を宣言するものではない。むしろ大手研究所が、今後の進捗主張をどう評価し、どう比較すべきかという基準そのものを標準化しようとしている動きといえる。このframeworkが広く採用されれば、将来のモデル比較の仕方、capability gapの議論、AGIをめぐる公共的な議論がよりevidence-drivenになる可能性がある。

Google DeepMind、AGI進捗を測るcognitive frameworkを提案

重要性

Related Articles

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

Google DeepMind、有害なAI manipulationを実測するreal-world toolkitを公開

Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張

Comments (0)

Leave a Comment

Related Articles

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い
AI Hacker News Apr 13, 2026 1 min read

Google DeepMind、有害なAI manipulationを実測するreal-world toolkitを公開
AI X/Twitter Mar 26, 2026 1 min read

Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張
AI X/Twitter Mar 18, 2026 1 min read