LLM judge、文書の33-67%で一貫性の崩れを隠した

Original: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations View original →

Read in other languages: 한국어English
LLM Apr 17, 2026 By Insights AI 1 min read Source

LLM-as-judgeはmodel eval、summary評価、agent benchmarkで急速に標準部品になった。4月16日に公開されたarXiv論文Diagnosing LLM Judge Reliabilityは、その前提にある見落としやすい弱点を突く。全体平均では安定して見えるjudgeが、個別入力では矛盾した判断をかなり出している可能性がある。

著者らはSummEvalに2つの診断を適用した。1つ目はtransitivity analysisだ。aggregate violation rateは0.8-4.1%と低く見える。しかし文書単位では、33-67%の文書に少なくとも1つのdirected 3-cycleがあった。つまりAをBより良い、BをCより良いとしながら、同じ評価関係の中でCをAより良いとするような循環判断が起きていた。

2つ目は1-5のLikert scoreに対するsplit conformal prediction setである。この方法は理論上>=1-alpha coverageを与え、prediction setの幅をinstance-level reliabilityのsignalとして扱う。論文はpooled settingで、set widthとabsolute errorがr_s=+0.576、N=1,918、p < 10^-100で結びつくと報告した。幅の広いsetは、judgeが間違えやすい入力を示す実用的な警告になる。

criteria別の結果も実務上重要だ。4つのjudgeと4つのcriteriaを比べると、judgeの種類よりcriterionの違いが大きかった。Relevanceは平均set sizeが約3.0で比較的安定していた。Coherenceは約3.9。Fluencyとconsistencyは約4.9で、1-5のほぼ全域を必要とするほど不安定だった。同じLLM judgeでも、何を評価するかによって信頼度は大きく変わる。

この論文は自動評価を捨てるべきだと言っているわけではない。単一のLLM-judge scoreをきれいな測定値として扱うな、という警告に近い。著者らはcode、prompts、cached resultsを公開するとしている。今後のleaderboardや社内evalでは、scoreだけでなくuncertaintyとinconsistency checkを並べて示す必要が強まった。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.