LoCoMo audit 제기한 r/MachineLearning, answer key 오류 6.4%와 judge 취약성 지적

2026년 3월 27일 r/MachineLearning에 올라온 한 discussion post는 long-term memory benchmark를 어떻게 읽어야 하는지 다시 묻고 있다. Penfield Labs는 LoCoMo가 여전히 널리 인용되고 있지만, answer key 1,540문항 중 99개에 score를 왜곡하는 오류가 있으며 비율로는 6.4%라고 주장했다. 같은 글은 gpt-4o-mini로 구성된 LLM judge가 의도적으로 틀리지만 주제는 맞는 답변의 62.81%를 통과시켰다고도 적었다. memory system을 평가한다는 scoreboard가 실제로는 상당한 noise 위에 서 있을 수 있다는 문제 제기다.

제시된 사례는 꽤 구체적이다. 한 문항의 answer key는 "Ferrari 488 GTB"를 기대하지만, 실제 conversation에는 "this beauty"만 있고 모델이 볼 수 있는 caption은 "a red sports car"뿐이라고 한다. 해당 차종 이름은 시스템이 ingest하지 않는 내부 query field에만 있다는 설명이다. 또 다른 문항은 Thursday 기준의 "last Saturday"를 Sunday로 계산했고, 24개 문항은 speaker attribution이 틀렸다고 한다. 이 주장들이 맞다면 perfect system이라도 100%를 받을 수 없고, 이 글은 theoretical maximum을 약 93.6%로 본다.

비판은 LoCoMo 하나에서 끝나지 않는다. 글쓴이는 LongMemEval-S도 질문당 corpus가 약 115K token이라 현대 모델의 128K~1M context window 안에 들어가므로, long-term memory retrieval보다 context-window management를 더 많이 재고 있다고 지적한다. LoCoMo-Plus는 lexical overlap이 약한 "cognitive" 질문을 추가했다는 점에서 긍정적으로 평가받지만, 동시에 기존 LoCoMo 1,540문항을 그대로 물려받았고 오래된 category는 여전히 같은 ground truth와 judge 구조에 기대고 있다고 본다.

이 스레드가 중요한 이유는 단순히 error count가 크기 때문만은 아니다. benchmark governance 자체가 infrastructure라는 점을 다시 상기시키기 때문이다. 프로젝트마다 ingestion pipeline, prompt, embedding model, judge configuration이 다르면, 발표된 표는 이미 같은 기준의 비교가 아니다. Penfield Labs는 context window보다 큰 corpus, adversarial judge validation, 더 강한 evaluator, 그리고 방법론 전체 공개를 요구했다. persistent memory system을 만드는 팀에게 r/MachineLearning이 던진 메시지는 분명하다. measurement stack을 신뢰할 수 없으면 leaderboard도 신뢰하기 어렵다.

LoCoMo audit 제기한 r/MachineLearning, answer key 오류 6.4%와 judge 취약성 지적

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

GPT-5.6 Sol, ChatGPT·Codex·API 전면 배포와 80.0 coding agent 지표

LLM judge, 문서 33-67%에서 일관성 붕괴를 숨겼다

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회
LLM X/Twitter Jul 10, 2026 1 min read

GPT-5.6 Sol, ChatGPT·Codex·API 전면 배포와 80.0 coding agent 지표
LLM X/Twitter Jul 10, 2026 1 min read

LLM judge, 문서 33-67%에서 일관성 붕괴를 숨겼다
LLM Apr 17, 2026 1 min read