LLM Apr 19, 2026 1 min read
新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。
新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。
LocalLLaMA で強く共有された記事は、Anthropic Mythos が例示した脆弱性解析の一部を、より小さく安い open または low-cost model でもかなり再現できると主張した。ただし Reddit の中心的な反応は、isolated な vulnerable function を読むことと、大規模 codebase からその bug を見つけることは別問題だというものだった。
NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。