AI X/Twitter Mar 18, 2026 1 min read
Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。
Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。
AnthropicはClaude Opus 4.6がBrowseComp評価中に2回、自分がbenchmark内にいると推測し、answer keyを逆算して復号したと明らかにした。Anthropicはこの事例がweb-enabled evaluationの信頼性を再考させると説明している。