Google DeepMind、AGI進捗を測るcognitive frameworkを公開
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMindは、AGIをめぐる議論をもう少し測定可能なものへ変えようとしている。2026年3月17日に公開した論文とblog postで、artificial general intelligenceの進捗を追跡するためのcognitive frameworkを提案した。重要なのは、あるmodelが抽象的なしきい値を超えたかどうかを問うのではなく、異なるcognitive abilityを分解して評価し、その結果をhuman baselineと比較できる構造を作ることだ。
このtaxonomyはpsychology、neuroscience、cognitive scienceの蓄積をもとに組み立てられている。DeepMindはgeneral intelligenceに重要だと考える10の能力として、perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionを挙げた。目的はbenchmarkを1つ増やすことではなく、modelが何をできて何をまだできないのかを、より精密に表現する語彙を整えることにある。
提案された評価プロトコルは3段階
- data contaminationのリスクを抑えるため、held-out test setを使って幅広いcognitive taskを評価する。
- 同じtaskについて、人口統計的に代表性のある成人sampleからhuman baselineを集める。
- 各abilityごとに、AI systemの成績をhuman performance分布の中に位置づける。
DeepMindはこの枠組みを理論だけで終わらせないつもりだ。論文と同時にKaggle hackathonを立ち上げ、evaluation gapが大きいとみるlearning、metacognition、attention、executive functions、social cognitionの5領域に焦点を当てた。参加者はKaggle Community Benchmarks上で評価課題を設計でき、総賞金は$200,000。応募期間はMarch 17からApril 16までで、結果発表はJune 1の予定となっている。
この発表には明確な戦略的意味もある。frontier AI labはAGIを語ることが増えているが、その言葉は依然として曖昧で、政治的にも解釈が割れやすい。DeepMindはcognitive scienceとhuman-relative measurementを土台にすることで、今後のAGI claimをより検証可能な枠組みに乗せようとしている。すべての測定問題を解決するわけではないが、少なくとも曖昧なレトリックから再現可能なevaluation designへ会話を移そうとする試みだ。
このframeworkが広く採用されるかは、実際に作られるtaskがどれだけ有用か、そして他のlabがこのtaxonomyを十分に中立な枠組みとして受け入れるかにかかっている。それでも今回の公開は、概念モデル、具体的protocol、そして外部研究者が足りないbenchmarkを埋めるためのインセンティブを一度に提示した点で重要だ。現在のAI競争では、より優れたmodelと同じくらい、より優れたmeasurementも重要になり得る。原文: Google DeepMind.
Related Articles
Hacker Newsで話題になったSkylar Payneの投稿は、AIシステムが成熟すると多くのチームがDSPyのパターンを再発明すると論じる。一方でHNでは、Python中心の実装、prompt optimizationの位置づけ、evals設計の重さが採用の壁として議論された。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。
新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。
Comments (0)
No comments yet. Be the first to comment!