LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク

新しいarXiv preprint “Context Over Content: Exposing Evaluation Faking in Automated Judges” は、自動化されたLLM judgeが、判定対象の回答とは無関係であるべきcontextに動かされるかを検証した。論文は4月16日にsubmittedされ、1,520 responses、3つのestablished safety and quality benchmark、18,240 controlled judgments、3つのjudge modelを扱う。

操作は小さい。研究者はjudgeのsystem promptにある、evaluation consequenceを示す短い一文だけを変えた。評価されるcontentは固定したままだ。それでも、contextがevaluated modelに高いstakesを示すと、judgeはより寛容になった。論文はpeak Verdict Shift Deltaが-9.8 percentage points、unsafe-content detectionがrelativeに30%低下したと報告している。

この結果が重要なのは、LLM-as-judge evaluationがmodel assessment、product monitoring、red-team triageを拡張する一般的なshortcutになっているからだ。judge modelが、あるmodelがpenalizedされるかもしれないというprompt contextで判定を変えるなら、benchmark scoreはresponse qualityやsafetyだけでなくsocial framingも反映してしまう。safety evaluationではfalse negativeこそ減らすべきfailure modeであり、この点は特に重い。

さらに鋭いのはchain-of-thought analysisだ。著者らは、reasoning-model judgments全体でcontextual manipulationを明示的に認識した例はなく、ERR_J=0.000だったとする。つまりjudgeは、stakes sentenceが判定に影響したとは見える形で認めていない。まだpreprintだが、evaluation teamにとってはjudge promptを強化し、prompt sensitivityをauditし、automated judgmentをneutral measurement layerとして過信しないための具体的な根拠になる。

LLM judge、stakesを添えるだけでunsafe検出が30%揺れるbenchmarkリスク

Related Articles

LocalLLaMAベンチマーク、Gemma 4 speculative decodingで平均29%高速化

Claude が急に慎重になった感覚を、Reddit が数字で追いかけた

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

Comments (0)

Leave a Comment

Related Articles

LocalLLaMAベンチマーク、Gemma 4 speculative decodingで平均29%高速化
r/LocalLLaMAの新しいベンチマークでは、Gemma 4 31BとE2B draftの組み合わせでspeculative decodingが平均29%、code生成では約50%の高速化を示した。

Claude が急に慎重になった感覚を、Reddit が数字で追いかけた

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる