r/MachineLearning이 제기한 LoCoMo audit, memory benchmark 신뢰도에 경고

r/MachineLearning이 문제 삼는 것

r/MachineLearning의 한 토론은 long-term memory benchmark로 널리 인용되는 LoCoMo에 얼마나 큰 신뢰를 둘 수 있는지 다시 묻고 있다. 게시글은 1,540개 질문을 대상으로 한 independent audit 결과를 요약하며, 그 안에서 99개의 score-corrupting error, 즉 6.4%의 오류를 찾았다고 주장한다. 문제는 사소한 오탈자가 아니다. answer key에 없는 사실이 삽입되거나, temporal reasoning이 틀리거나, speaker attribution이 뒤바뀌어 실제로 더 정확한 시스템이 오히려 감점될 수 있다는 것이다.

예시는 꽤 구체적이다. 한 문항의 answer key는 Ferrari 488 GTB를 정답으로 적지만, 원래 대화에는 단지 “this beauty”라는 표현과 “a red sports car”라는 이미지 캡션만 등장한다고 한다. 다른 문항에서는 Thursday 기준의 “Last Saturday”를 Sunday로 잘못 해석했다. 또 24개 문항은 발화를 잘못된 speaker에게 귀속시켰다고 한다. 이런 이유로 글쓴이는 완벽한 시스템이라도 이 benchmark에서 이론상 약 93.6% 이상은 얻기 어렵다고 본다.

judge 자체도 문제라는 주장

이 Reddit 글은 ground truth 오류 지적에서 멈추지 않는다. LoCoMo 평가에 쓰인 LLM judge가 강한 시스템과 약한 시스템을 충분히 구분하지 못한다고 비판한다. 같은 judge 설정으로 1,540개 질문 전체에 대해 의도적으로 틀렸지만 주제만 비슷한 답변을 생성해 넣었더니 62.81%가 통과했다고 한다. 이름이나 날짜처럼 뚜렷한 factual error는 비교적 잘 잡았지만, 관련 대화만 짚고 세부를 놓친 vague answer는 거의 3분의 2가 통과했다는 설명이다. memory retrieval benchmark라면 상당히 치명적인 failure mode다.

게시글은 LongMemEval-S를 자동 대안으로 보는 시각에도 선을 긋는다. 이 경우의 문제는 다르다. 전체 corpus가 현재 모델의 context window 안에 들어간다면, 점수는 persistent memory보다 context handling 효율을 더 많이 측정하게 된다는 것이다. 결국 benchmark design과 benchmark judging 두 축이 동시에 흔들리고 있다는 지적이다.

왜 중요한가

이 토론의 큰 가치는 leaderboard 수치보다 evaluation infrastructure 자체를 보게 만든다는 점이다. ingestion pipeline, answer generation prompt, judge model이 제각각이라면 작은 점수 차이는 큰 의미를 갖기 어렵다. r/MachineLearning 커뮤니티가 던지는 문제는 단순히 LoCoMo를 고쳐야 하느냐가 아니다. memory system benchmark가 강한 주장을 지탱하려면 더 나은 ground truth, 더 강한 judge, 더 표준화된 protocol이 필요하다는 것이다.

r/MachineLearning이 제기한 LoCoMo audit, memory benchmark 신뢰도에 경고

r/MachineLearning이 문제 삼는 것

judge 자체도 문제라는 주장

왜 중요한가

Related Articles

HN이 주목한 llm-circuit-finder: layer duplication은 LLM 향상의 지름길인가, capability steering인가

Microsoft Research, AI agent 첫 치명적 실패 지점 찾는 AgentRx 오픈소스 공개

r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장

Comments (0)

Leave a Comment

Related Articles

HN이 주목한 llm-circuit-finder: layer duplication은 LLM 향상의 지름길인가, capability steering인가

Microsoft Research, AI agent 첫 치명적 실패 지점 찾는 AgentRx 오픈소스 공개

r/LocalLLaMA 벤치마크: M5 Max는 MoE prompt processing에서 특히 강하다는 주장