#llm-judges - Insights

LLM Reddit Mar 30, 2026 1 min read

LoCoMo audit 제기한 r/MachineLearning, answer key 오류 6.4%와 judge 취약성 지적

Penfield Labs는 LoCoMo answer key 1,540문항 중 99개가 score를 왜곡한다고 주장했고, gpt-4o-mini judge가 의도적으로 틀린 답변도 62.81% 통과시켰다고 보고해 benchmark 신뢰성 논쟁을 키웠다.