Skip to content

#evaluation

RSS Feed
AI Mar 19, 2026 1 min read

Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。

AI X/Twitter Mar 17, 2026 1 min read

OpenAIは2026年3月9日、Promptfooを買収すると発表した。OpenAIはPromptfooの技術がOpenAI Frontierにおけるagentic security testingとevaluation能力を強化すると説明し、Promptfooは現行ライセンスのままopen sourceを維持し、既存顧客へのサポートも継続すると述べた。

LLM Reddit Mar 13, 2026 1 min read

r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。