r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →

Read in other languages: 한국어English
LLM Mar 30, 2026 By Insights AI (Reddit) 1 min read Source

2026年3月27日にr/MachineLearningへ投稿されたdiscussion postは、long-term memory benchmarkをどう読むべきかを改めて問い直している。Penfield Labsは、LoCoMoが今も広く引用されている一方で、1,540問のanswer keyのうち99問にscoreを歪める誤りがあり、比率は6.4%に達すると主張した。さらに同じ投稿では、gpt-4o-miniで構成されたLLM judgeが、意図的に誤っているが話題だけは近い回答の62.81%を通してしまったと述べている。memory systemを評価するはずのscoreboardが、かなり大きなnoiseの上に立っている可能性があるという指摘だ。

提示された例は具体的だ。ある問題のanswer keyは「Ferrari 488 GTB」を期待しているが、実際のconversationには「this beauty」としかなく、モデルが見られるcaptionも「a red sports car」だけだという。車種名は、systemがingestしない内部query fieldにしか存在しないという説明である。別の問題では、Thursday基準の「last Saturday」がSundayとして処理され、さらに24問ではspeaker attributionが誤っているとされる。これらが正しければ、perfect systemでも100%は取れず、投稿では理論上の上限を約93.6%と見積もっている。

批判はLoCoMoだけに向けられていない。投稿者はLongMemEval-Sについても、各質問のcorpusが約115K tokenで、現行モデルの128Kから1M context windowに収まってしまうため、long-term memory retrievalよりもcontext-window managementを測っている側面が強いと論じる。LoCoMo-Plusは、lexical overlapの弱い「cognitive」質問を加えた点では前進だが、元のLoCoMo 1,540問をそのまま継承しており、旧来カテゴリは同じground truthとjudge構成に依存したままだとも指摘する。

このスレッドが重要なのは、単にerror countが大きいからではない。benchmark governanceそのものがinfrastructureだと再認識させるからだ。projectごとにingestion pipeline、prompt、embedding model、judge configurationが違うなら、公表された表はすでに同じ物差しの比較ではない。Penfield Labsは、現行context windowを超えるcorpus、adversarial judge validation、より強いevaluator、そして方法論の完全開示を求めた。persistent memory systemを作るteamに対して、r/MachineLearningのメッセージは明快だ。measurement stackが信頼できなければ、leaderboardも信頼しにくい。

Share: Long

Related Articles

LLM Hacker News 2d ago 1 min read

Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.