Google DeepMind、AGI進捗を測るcognitive frameworkを公開

Google DeepMindは、AGIをめぐる議論をもう少し測定可能なものへ変えようとしている。2026年3月17日に公開した論文とblog postで、artificial general intelligenceの進捗を追跡するためのcognitive frameworkを提案した。重要なのは、あるmodelが抽象的なしきい値を超えたかどうかを問うのではなく、異なるcognitive abilityを分解して評価し、その結果をhuman baselineと比較できる構造を作ることだ。

このtaxonomyはpsychology、neuroscience、cognitive scienceの蓄積をもとに組み立てられている。DeepMindはgeneral intelligenceに重要だと考える10の能力として、perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionを挙げた。目的はbenchmarkを1つ増やすことではなく、modelが何をできて何をまだできないのかを、より精密に表現する語彙を整えることにある。

提案された評価プロトコルは3段階

data contaminationのリスクを抑えるため、held-out test setを使って幅広いcognitive taskを評価する。
同じtaskについて、人口統計的に代表性のある成人sampleからhuman baselineを集める。
各abilityごとに、AI systemの成績をhuman performance分布の中に位置づける。

DeepMindはこの枠組みを理論だけで終わらせないつもりだ。論文と同時にKaggle hackathonを立ち上げ、evaluation gapが大きいとみるlearning、metacognition、attention、executive functions、social cognitionの5領域に焦点を当てた。参加者はKaggle Community Benchmarks上で評価課題を設計でき、総賞金は$200,000。応募期間はMarch 17からApril 16までで、結果発表はJune 1の予定となっている。

この発表には明確な戦略的意味もある。frontier AI labはAGIを語ることが増えているが、その言葉は依然として曖昧で、政治的にも解釈が割れやすい。DeepMindはcognitive scienceとhuman-relative measurementを土台にすることで、今後のAGI claimをより検証可能な枠組みに乗せようとしている。すべての測定問題を解決するわけではないが、少なくとも曖昧なレトリックから再現可能なevaluation designへ会話を移そうとする試みだ。

このframeworkが広く採用されるかは、実際に作られるtaskがどれだけ有用か、そして他のlabがこのtaxonomyを十分に中立な枠組みとして受け入れるかにかかっている。それでも今回の公開は、概念モデル、具体的protocol、そして外部研究者が足りないbenchmarkを埋めるためのインセンティブを一度に提示した点で重要だ。現在のAI競争では、より優れたmodelと同じくらい、より優れたmeasurementも重要になり得る。原文: Google DeepMind.

Google DeepMind、AGI進捗を測るcognitive frameworkを公開

提案された評価プロトコルは3段階

Related Articles

Google I/O 2026：Gemini 3.5 Flash発表——エージェントAI時代の新基準

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇

Comments (0)

Leave a Comment

提案された評価プロトコルは3段階

Related Articles

Google I/O 2026：Gemini 3.5 Flash発表——エージェントAI時代の新基準

ローカルコーディング38.2%、LocalLLaMAが見たのは点数より導入ライン

Arena採点のGPT-5.5 Search 2位、Code Arenaは50点上昇

Comments (0)

Leave a Comment

Arena採点のGPT-5.5　Search 2位、Code Arenaは50点上昇