#llm-evals

LLM Apr 19, 2026 1 min read

LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク

新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。

AI Reddit Apr 10, 2026 1 min read

Mythos級セキュリティ解析は frontier model 専用か、Reddit が掘り下げた検証

LocalLLaMA で強く共有された記事は、Anthropic Mythos が例示した脆弱性解析の一部を、より小さく安い open または low-cost model でもかなり再現できると主張した。ただし Reddit の中心的な反応は、isolated な vulnerable function を読むことと、大規模 codebase からその bug を見つけることは別問題だというものだった。

#cybersecurity #mythos #open-models

LLM Mar 12, 2026 1 min read

NIST、AI 800-3で benchmark accuracy と generalized accuracy を分ける evaluation指針を提示

NISTは2026年2月19日に公開したAI 800-3で、benchmark accuracyとgeneralized accuracyを明確に区別し、generalized linear mixed modelsによるuncertainty estimationを提案した。報告書は、frontier LLM benchmarkの解釈において hidden assumption や不十分な統計処理が意思決定を歪め得ると指摘している。

#nist #llm-evals #benchmarks