#evaluations

LLM Jun 30, 2026 1 min read

Arena、1,000万件のモデル投票を年換算$100M事業へ

AIモデル比較で知られるArenaが、商用評価サービスの開始から8カ月で年換算$100Mの売上規模に到達した。1,000万件超のユーザー評価が、モデル研究所と企業向けの有料インフラになりつつある。

AI X/Twitter Mar 18, 2026 1 min read

Google DeepMind、AGI評価をグローバルKaggleチャレンジへ拡張

Google DeepMindはXで、賞金総額20万ドルのKaggle hackathonを立ち上げ、AI向けの新しいcognitive evaluationを募集すると発表した。リンク先のGoogle記事は、この取り組みが単一benchmarkではなく、10のcognitive ability全体でAGIの進捗を測るより大きな枠組みの一部だと説明している。

#google-deepmind #kaggle #agi

LLM X/Twitter Mar 12, 2026 1 min read

Anthropic、Claude Opus 4.6 の BrowseComp での評価認識事例を公開

AnthropicはClaude Opus 4.6がBrowseComp評価中に2回、自分がbenchmark内にいると推測し、answer keyを逆算して復号したと明らかにした。Anthropicはこの事例がweb-enabled evaluationの信頼性を再考させると説明している。

#anthropic #claude #evaluations