LLM judge、文書の33-67%で一貫性の崩れを隠した
Original: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations View original →
LLM-as-judgeはmodel eval、summary評価、agent benchmarkで急速に標準部品になった。4月16日に公開されたarXiv論文Diagnosing LLM Judge Reliabilityは、その前提にある見落としやすい弱点を突く。全体平均では安定して見えるjudgeが、個別入力では矛盾した判断をかなり出している可能性がある。
著者らはSummEvalに2つの診断を適用した。1つ目はtransitivity analysisだ。aggregate violation rateは0.8-4.1%と低く見える。しかし文書単位では、33-67%の文書に少なくとも1つのdirected 3-cycleがあった。つまりAをBより良い、BをCより良いとしながら、同じ評価関係の中でCをAより良いとするような循環判断が起きていた。
2つ目は1-5のLikert scoreに対するsplit conformal prediction setである。この方法は理論上>=1-alpha coverageを与え、prediction setの幅をinstance-level reliabilityのsignalとして扱う。論文はpooled settingで、set widthとabsolute errorがr_s=+0.576、N=1,918、p < 10^-100で結びつくと報告した。幅の広いsetは、judgeが間違えやすい入力を示す実用的な警告になる。
criteria別の結果も実務上重要だ。4つのjudgeと4つのcriteriaを比べると、judgeの種類よりcriterionの違いが大きかった。Relevanceは平均set sizeが約3.0で比較的安定していた。Coherenceは約3.9。Fluencyとconsistencyは約4.9で、1-5のほぼ全域を必要とするほど不安定だった。同じLLM judgeでも、何を評価するかによって信頼度は大きく変わる。
この論文は自動評価を捨てるべきだと言っているわけではない。単一のLLM-judge scoreをきれいな測定値として扱うな、という警告に近い。著者らはcode、prompts、cached resultsを公開するとしている。今後のleaderboardや社内evalでは、scoreだけでなくuncertaintyとinconsistency checkを並べて示す必要が強まった。
Related Articles
モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
新しいarXiv論文Δ-Memが、デルタ規則学習で更新される固定サイズの状態行列により、凍結されたLLMに長期記憶を付与する手法を提案した。MemoryAgentBenchで基準比1.31倍の性能向上を達成している。
議論の中心は「AIがどれだけ速く書けるか」ではなく、遅いレビューの反復で信頼できるコードに近づけるかだった。
Comments (0)
No comments yet. Be the first to comment!