Skip to content
腐食中

Google DeepMind、AGI進捗を測るcognitive frameworkを公開

Original: Measuring progress toward AGI: A cognitive framework View original →

Read in other languages: 한국어English
LLM Mar 24, 2026 By Insights AI 1 min read 9 views Source

Google DeepMindは、AGIをめぐる議論をもう少し測定可能なものへ変えようとしている。2026年3月17日に公開した論文とblog postで、artificial general intelligenceの進捗を追跡するためのcognitive frameworkを提案した。重要なのは、あるmodelが抽象的なしきい値を超えたかどうかを問うのではなく、異なるcognitive abilityを分解して評価し、その結果をhuman baselineと比較できる構造を作ることだ。

このtaxonomyはpsychology、neuroscience、cognitive scienceの蓄積をもとに組み立てられている。DeepMindはgeneral intelligenceに重要だと考える10の能力として、perception、generation、attention、learning、memory、reasoning、metacognition、executive functions、problem solving、social cognitionを挙げた。目的はbenchmarkを1つ増やすことではなく、modelが何をできて何をまだできないのかを、より精密に表現する語彙を整えることにある。

提案された評価プロトコルは3段階

  • data contaminationのリスクを抑えるため、held-out test setを使って幅広いcognitive taskを評価する。
  • 同じtaskについて、人口統計的に代表性のある成人sampleからhuman baselineを集める。
  • 各abilityごとに、AI systemの成績をhuman performance分布の中に位置づける。

DeepMindはこの枠組みを理論だけで終わらせないつもりだ。論文と同時にKaggle hackathonを立ち上げ、evaluation gapが大きいとみるlearning、metacognition、attention、executive functions、social cognitionの5領域に焦点を当てた。参加者はKaggle Community Benchmarks上で評価課題を設計でき、総賞金は$200,000。応募期間はMarch 17からApril 16までで、結果発表はJune 1の予定となっている。

この発表には明確な戦略的意味もある。frontier AI labはAGIを語ることが増えているが、その言葉は依然として曖昧で、政治的にも解釈が割れやすい。DeepMindはcognitive scienceとhuman-relative measurementを土台にすることで、今後のAGI claimをより検証可能な枠組みに乗せようとしている。すべての測定問題を解決するわけではないが、少なくとも曖昧なレトリックから再現可能なevaluation designへ会話を移そうとする試みだ。

このframeworkが広く採用されるかは、実際に作られるtaskがどれだけ有用か、そして他のlabがこのtaxonomyを十分に中立な枠組みとして受け入れるかにかかっている。それでも今回の公開は、概念モデル、具体的protocol、そして外部研究者が足りないbenchmarkを埋めるためのインセンティブを一度に提示した点で重要だ。現在のAI競争では、より優れたmodelと同じくらい、より優れたmeasurementも重要になり得る。原文: Google DeepMind.

Share: Long

Related Articles

LLM X/Twitter Apr 27, 2026 1 min read

重要なのは、発売時の宣伝ではなく外部コミュニティ評価でGPT-5.5の立ち位置が見えたことだ。Arenaによれば、GPT-5.5はSearch Arenaで2位、Expert Arenaで5位、Code Arenaで9位に入り、コード分野ではGPT-5.4から50ポイント伸びた。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment