LLM Apr 19, 2026 1 min read LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク 新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。 #llm-evals#ai-safety#benchmarks 18