Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張
Original: Measuring progress toward AGI: A cognitive framework View original →
Google DeepMindは2026年3月17日のX投稿で、Kaggleと共同でAI向けの新しいcognitive evaluationを作るグローバルhackathonを開始し、賞金総額20万ドルを用意すると発表した。この投稿は同日に公開されたGoogle DeepMindのブログ記事と直結しており、その記事はAGIへの進捗を測るためのcognitive frameworkを紹介している。
その記事でGoogle DeepMindは、AGIへの前進を単一のbenchmarkやleaderboardだけで判断すべきではないと論じる。代わりに、attention、learning、memory、reasoning、executive functions、problem solving、social cognitionを含む10のcognitive ability taxonomyを提示する。狙いは、個別benchmarkの勝敗を一般知能の完全な代理指標とみなすのではなく、より広いcognitive task群でmodelの性能をhuman baselineと比較することにある。
Kaggleの部分は、その枠組みを公開competitionへ変える実装フェーズだ。Google DeepMindによると、hackathonでは現在もっとも評価ギャップが大きい5領域、learning、metacognition、attention、executive functions、social cognitionのevaluation設計をcommunityに求める。参加者はKaggleのCommunity Benchmarks platformでfrontier modelに対して提出物を試すことができ、応募期間は3月17日から4月16日まで、結果発表は6月1日の予定だ。
つまり今回のX発表は、単なるbenchmarkイベントの宣伝ではない。AGI evaluation設計の一部をより広い研究者・builder communityへ開きつつ、何をもって“general” intelligenceと呼ぶのかについて、より明示的な語彙を作ろうとする試みだ。最終的にこのframeworkが影響力を持つかどうかは、集まるtaskの質にかかっているが、Google DeepMindがmodel releaseの速度と同じくらいpublic evaluation designを重要視していることは明確だ。
Related Articles
Google DeepMindのAI数学研究エージェントAletheiaが、FirstProof Challengeで専門数学者が出題した研究レベルの数学問題10問中6問を自律的に解決しました。テレンス・タオらの数学者もその意義を認め、AIを価値ある研究協力者と評価しています。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
2026年3月13日のShow HNで紹介されたGitAgentは、`agent.yaml`、`SOUL.md`、`SKILL.md`などのファイルでAI agentを定義するgit-native標準を打ち出した。
Comments (0)
No comments yet. Be the first to comment!