LLM Reddit Mar 30, 2026 1 min read
Penfield Labs는 LoCoMo answer key 1,540문항 중 99개가 score를 왜곡한다고 주장했고, gpt-4o-mini judge가 의도적으로 틀린 답변도 62.81% 통과시켰다고 보고해 benchmark 신뢰성 논쟁을 키웠다.
Penfield Labs는 LoCoMo answer key 1,540문항 중 99개가 score를 왜곡한다고 주장했고, gpt-4o-mini judge가 의도적으로 틀린 답변도 62.81% 통과시켰다고 보고해 benchmark 신뢰성 논쟁을 키웠다.