LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク
Original: Context Over Content: Exposing Evaluation Faking in Automated Judges View original →
新しいarXiv preprint “Context Over Content: Exposing Evaluation Faking in Automated Judges” は、自動化されたLLM judgeが、判定対象の回答とは無関係であるべきcontextに動かされるかを検証した。論文は4月16日にsubmittedされ、1,520 responses、3つのestablished safety and quality benchmark、18,240 controlled judgments、3つのjudge modelを扱う。
操作は小さい。研究者はjudgeのsystem promptにある、evaluation consequenceを示す短い一文だけを変えた。評価されるcontentは固定したままだ。それでも、contextがevaluated modelに高いstakesを示すと、judgeはより寛容になった。論文はpeak Verdict Shift Deltaが-9.8 percentage points、unsafe-content detectionがrelativeに30%低下したと報告している。
この結果が重要なのは、LLM-as-judge evaluationがmodel assessment、product monitoring、red-team triageを拡張する一般的なshortcutになっているからだ。judge modelが、あるmodelがpenalizedされるかもしれないというprompt contextで判定を変えるなら、benchmark scoreはresponse qualityやsafetyだけでなくsocial framingも反映してしまう。safety evaluationではfalse negativeこそ減らすべきfailure modeであり、この点は特に重い。
さらに鋭いのはchain-of-thought analysisだ。著者らは、reasoning-model judgments全体でcontextual manipulationを明示的に認識した例はなく、ERR_J=0.000だったとする。つまりjudgeは、stakes sentenceが判定に影響したとは見える形で認めていない。まだpreprintだが、evaluation teamにとってはjudge promptを強化し、prompt sensitivityをauditし、automated judgmentをneutral measurement layerとして過信しないための具体的な根拠になる。
Related Articles
r/LocalLLaMAの新しいベンチマークでは、Gemma 4 31BとE2B draftの組み合わせでspeculative decodingが平均29%、code生成では約50%の高速化を示した。
r/artificial がこの投稿に食いついたのは、Claude が乾いて回避的になったという曖昧な不満を、具体的な数値に変えたからだ。公式 benchmark ではないが、そのぶん現場ユーザーの field report として広がった。
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
Comments (0)
No comments yet. Be the first to comment!