r/MachineLearning이 제기한 LoCoMo audit, memory benchmark 신뢰도에 경고
Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →
r/MachineLearning이 문제 삼는 것
r/MachineLearning의 한 토론은 long-term memory benchmark로 널리 인용되는 LoCoMo에 얼마나 큰 신뢰를 둘 수 있는지 다시 묻고 있다. 게시글은 1,540개 질문을 대상으로 한 independent audit 결과를 요약하며, 그 안에서 99개의 score-corrupting error, 즉 6.4%의 오류를 찾았다고 주장한다. 문제는 사소한 오탈자가 아니다. answer key에 없는 사실이 삽입되거나, temporal reasoning이 틀리거나, speaker attribution이 뒤바뀌어 실제로 더 정확한 시스템이 오히려 감점될 수 있다는 것이다.
예시는 꽤 구체적이다. 한 문항의 answer key는 Ferrari 488 GTB를 정답으로 적지만, 원래 대화에는 단지 “this beauty”라는 표현과 “a red sports car”라는 이미지 캡션만 등장한다고 한다. 다른 문항에서는 Thursday 기준의 “Last Saturday”를 Sunday로 잘못 해석했다. 또 24개 문항은 발화를 잘못된 speaker에게 귀속시켰다고 한다. 이런 이유로 글쓴이는 완벽한 시스템이라도 이 benchmark에서 이론상 약 93.6% 이상은 얻기 어렵다고 본다.
judge 자체도 문제라는 주장
이 Reddit 글은 ground truth 오류 지적에서 멈추지 않는다. LoCoMo 평가에 쓰인 LLM judge가 강한 시스템과 약한 시스템을 충분히 구분하지 못한다고 비판한다. 같은 judge 설정으로 1,540개 질문 전체에 대해 의도적으로 틀렸지만 주제만 비슷한 답변을 생성해 넣었더니 62.81%가 통과했다고 한다. 이름이나 날짜처럼 뚜렷한 factual error는 비교적 잘 잡았지만, 관련 대화만 짚고 세부를 놓친 vague answer는 거의 3분의 2가 통과했다는 설명이다. memory retrieval benchmark라면 상당히 치명적인 failure mode다.
게시글은 LongMemEval-S를 자동 대안으로 보는 시각에도 선을 긋는다. 이 경우의 문제는 다르다. 전체 corpus가 현재 모델의 context window 안에 들어간다면, 점수는 persistent memory보다 context handling 효율을 더 많이 측정하게 된다는 것이다. 결국 benchmark design과 benchmark judging 두 축이 동시에 흔들리고 있다는 지적이다.
왜 중요한가
이 토론의 큰 가치는 leaderboard 수치보다 evaluation infrastructure 자체를 보게 만든다는 점이다. ingestion pipeline, answer generation prompt, judge model이 제각각이라면 작은 점수 차이는 큰 의미를 갖기 어렵다. r/MachineLearning 커뮤니티가 던지는 문제는 단순히 LoCoMo를 고쳐야 하느냐가 아니다. memory system benchmark가 강한 주장을 지탱하려면 더 나은 ground truth, 더 강한 judge, 더 표준화된 protocol이 필요하다는 것이다.
Related Articles
Hacker News에서 화제가 된 llm-circuit-finder는 training 없이 layer routing만으로 reasoning score를 끌어올릴 수 있다고 주장한다. 하지만 README의 전체 benchmark는 IFEval/MBPP와 평균 점수 하락도 보여 주며, 이 접근은 universal improvement보다 capability steering으로 보는 편이 더 타당하다.
Microsoft Research가 긴 agent trajectory에서 첫 critical failure step을 찾는 AgentRx를 공개했다. 115개 failed trajectory benchmark와 nine-category taxonomy도 함께 내놓으며 failure localization과 root-cause attribution 개선 수치를 제시했다.
r/LocalLLaMA의 rerun benchmark는 Apple M5 Max가 token generation보다 prompt processing에서 더 큰 이득을 보인다고 주장한다. 특히 Qwen 3.5 35B-A3B MoE는 2,845 tok/s PP512와 92.2 tok/s generation을 기록했다고 post author가 설명한다.
Comments (0)
No comments yet. Be the first to comment!