Google DeepMind、AGI進捗を測るcognitive frameworkを提案
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMindは2026年3月17日、AGIへの進捗をどのように測るべきかについての新しい論文を公開し、現在のAGI議論には持続的なempirical frameworkが欠けていると主張した。この発表は、AGIが近いとか、単一のbenchmarkで結論を出せると宣言するものではない。そうではなく、cognitive scienceを土台にAI systemの能力をより体系的に記述し、比較する評価層を作ろうという提案だ。DeepMindはこれを、frontier modelの能力主張と本格的な一般知能評価の間をつなぐ測定インフラの問題として捉えている。
論文は、一般知能に重要だと考える10のcognitive abilityを挙げている。perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionである。さらに三段階の評価プロトコルを提案する。第一に、各能力をカバーする広い課題群でAI systemを評価し、held-out setでcontaminationを抑える。第二に、同じ課題について人口統計的に代表性のある成人サンプルからhuman baselineを集める。第三に、モデルの成績を単純なraw scoreではなく、人間の成績分布に対する相対的位置として解釈する。
この考え方を実務に落とし込むために、DeepMindはKaggleと共同でhackathonも始めた。評価の空白が大きいlearning、metacognition、attention、executive functions、social cognitionの五つの領域で、communityに新しいevaluation設計を促すものだ。参加者はKaggle Community Benchmarks platform上でbenchmarkを構築し、frontier model lineupに対して試験できる。Googleによれば、賞金総額は20万ドルで、応募期間は3月17日から4月16日、結果発表は6月1日だという。
重要性
- benchmark設計は、lab、investor、regulatorがfrontier modelの進歩をどう読むかを左右する基準になっている。
- DeepMindは単一スコアのleaderboardよりhuman-relative measurementを重視している。
- Kaggle hackathonによって、抽象的なframeworkがcommunityベースのevaluation構築へ接続された。
今回の発表はAGI達成を宣言するものではない。むしろ大手研究所が、今後の進捗主張をどう評価し、どう比較すべきかという基準そのものを標準化しようとしている動きといえる。このframeworkが広く採用されれば、将来のモデル比較の仕方、capability gapの議論、AGIをめぐる公共的な議論がよりevidence-drivenになる可能性がある。
Related Articles
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
Google DeepMindは2026年3月26日、会話型AIが感情を悪用したり、人を有害な選択へ誘導したりする可能性を扱う新研究を公開した。英国・米国・インドの1万人超が参加した9件の研究をもとに、harmful AI manipulationを測定する初のempirically validated toolkitを構築したという。
Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。
Comments (0)
No comments yet. Be the first to comment!