#reward-models - Insights

LLM Apr 19, 2026 1 min read

LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク

新しいarXiv preprintは、評価結果のconsequenceを示す一文だけでLLM judgeが有意に寛容になったと報告した。自動safety・quality benchmarkの弱点が見えた。