LLM judge, 문서 33-67%에서 일관성 붕괴를 숨겼다

LLM-as-judge는 model 평가, 요약 평가, agent benchmark에서 빠르게 기본 장치가 됐다. 4월 16일 공개된 arXiv 논문 Diagnosing LLM Judge Reliability는 이 관행의 불편한 약점을 찌른다. 평균 지표만 보면 judge가 안정적으로 보이지만, 개별 문서 수준에서는 판단 일관성이 훨씬 더 자주 무너진다는 것이다.

저자들은 SummEval에 두 가지 진단을 적용했다. 첫째는 transitivity analysis다. 전체 aggregate violation rate는 0.8-4.1%로 낮아 보였지만, 문서 단위로 보면 33-67%가 directed 3-cycle을 하나 이상 갖고 있었다. 쉽게 말해 A가 B보다 낫고, B가 C보다 낫다고 하면서도 C가 A보다 낫다는 식의 순환 판단이 상당수 입력에서 발생했다.

둘째는 1-5 Likert score에 대한 split conformal prediction set이다. 이 방식은 이론적으로 >=1-alpha coverage를 제공하고, set width를 instance-level reliability 신호로 쓴다. 논문은 pooled setting에서 set width와 absolute error가 r_s=+0.576, N=1,918, p < 10^-100으로 연결된다고 보고했다. 즉 judge가 넓은 score set을 요구하는 입력일수록 실제 오류도 커지는 경향이 있었다.

세부 결과도 실무적으로 중요하다. 네 judge와 네 criteria를 놓고 보면 judge 종류보다 criterion이 더 큰 차이를 만들었다. Relevance는 평균 set size가 약 3.0으로 비교적 안정적이었고, coherence는 약 3.9였다. 반면 fluency와 consistency는 약 4.9로 거의 전체 1-5 범위를 필요로 했다. 같은 LLM judge라도 어떤 품질을 묻느냐에 따라 신뢰도가 크게 달라진다는 뜻이다.

이 논문의 메시지는 자동 평가를 버리자는 것이 아니다. 오히려 LLM judge를 production eval에 쓰려면 단일 점수보다 불확실성 신호와 inconsistency check를 함께 내야 한다는 주장에 가깝다. 저자들은 code, prompts, cached results를 공개한다고 밝혔다. 앞으로 benchmark leaderboard가 점수 하나만 올리는 대신, judge reliability와 per-instance risk를 같이 공개해야 할 이유가 하나 더 생겼다.

LLM judge, 문서 33-67%에서 일관성 붕괴를 숨겼다

Related Articles

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결

AI 코딩 속도전보다 느린 리뷰 루프가 남긴 것

Comments (0)

Leave a Comment

Related Articles

← HWE-Bench finds agents fix 70.7% of real hardware bugs

MM-WebAgent, 이미지·코드·레이아웃을 따로 놀지 않게 묶었다 →

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결
LLM Hacker News May 16, 2026 1 min read