Microsoft Researchは、長いagent trajectoryの中で最初のcritical failure stepを見つけるAgentRxを公開した。115件のfailed trajectory benchmarkとnine-category taxonomyも同時に公開し、failure localizationとroot-cause attributionの改善値を示している。
#evaluation
RSS Feedr/MachineLearningで注目された乳がん segmentation研究は、自動生成ラベルを学習と評価の両方に使うと younger patient 集団の性能低下や bias が実際より見えにくくなると指摘している。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
OpenAIは2026年3月9日、Promptfooを買収すると発表した。OpenAIはPromptfooの技術がOpenAI Frontierにおけるagentic security testingとevaluation能力を強化すると説明し、Promptfooは現行ライセンスのままopen sourceを維持し、既存顧客へのサポートも継続すると述べた。
r/MachineLearningの投稿は、MetaのCOCONUTの成績向上はrecycled hidden stateそのものより、curriculum設計とsequential processingに由来する可能性が高いと主張している。
Hacker Newsでは2026年3月12日の分析記事をきっかけに、LLMコーディング能力はSWE-benchのtest通過率ほどにはmaintainer merge基準で伸びていないのではないかという議論が広がった。
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
r/MachineLearningで共有された新しいarXiv論文は、非公式のmodel access providerが研究結果と運用上の信頼性の両方を揺るがすと指摘している。
OpenAIはChain-of-Thought controllabilityに関する新しい評価スイートと研究論文を公開した。GPT-5.4 Thinkingは推論の隠蔽能力が低かったとし、CoTモニタリングの有効性を改めて示したとしている。
Anthropicは2026年1月21日のEngineering記事で、モデル性能向上に合わせて採用用技術課題を再設計してきた経緯を公開した。Claude Opus 4とOpus 4.5が従来基準を変えたことが、評価設計の見直しを加速させたという内容だ。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。
r/singularityで注目された投稿は、OpenAIがSWE-bench Verifiedのテスト品質問題を理由に評価利用を停止した発表を共有した。少なくとも16.4%の欠陥指摘は、coding LLMベンチマークの読み方に直接影響する。