r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

2026年3月27日にr/MachineLearningへ投稿されたdiscussion postは、long-term memory benchmarkをどう読むべきかを改めて問い直している。Penfield Labsは、LoCoMoが今も広く引用されている一方で、1,540問のanswer keyのうち99問にscoreを歪める誤りがあり、比率は6.4%に達すると主張した。さらに同じ投稿では、gpt-4o-miniで構成されたLLM judgeが、意図的に誤っているが話題だけは近い回答の62.81%を通してしまったと述べている。memory systemを評価するはずのscoreboardが、かなり大きなnoiseの上に立っている可能性があるという指摘だ。

提示された例は具体的だ。ある問題のanswer keyは「Ferrari 488 GTB」を期待しているが、実際のconversationには「this beauty」としかなく、モデルが見られるcaptionも「a red sports car」だけだという。車種名は、systemがingestしない内部query fieldにしか存在しないという説明である。別の問題では、Thursday基準の「last Saturday」がSundayとして処理され、さらに24問ではspeaker attributionが誤っているとされる。これらが正しければ、perfect systemでも100%は取れず、投稿では理論上の上限を約93.6%と見積もっている。

批判はLoCoMoだけに向けられていない。投稿者はLongMemEval-Sについても、各質問のcorpusが約115K tokenで、現行モデルの128Kから1M context windowに収まってしまうため、long-term memory retrievalよりもcontext-window managementを測っている側面が強いと論じる。LoCoMo-Plusは、lexical overlapの弱い「cognitive」質問を加えた点では前進だが、元のLoCoMo 1,540問をそのまま継承しており、旧来カテゴリは同じground truthとjudge構成に依存したままだとも指摘する。

このスレッドが重要なのは、単にerror countが大きいからではない。benchmark governanceそのものがinfrastructureだと再認識させるからだ。projectごとにingestion pipeline、prompt、embedding model、judge configurationが違うなら、公表された表はすでに同じ物差しの比較ではない。Penfield Labsは、現行context windowを超えるcorpus、adversarial judge validation、より強いevaluator、そして方法論の完全開示を求めた。persistent memory systemを作るteamに対して、r/MachineLearningのメッセージは明快だ。measurement stackが信頼できなければ、leaderboardも信頼しにくい。

r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

Related Articles

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

LLM judge、文書の33-67%で一貫性の崩れを隠した

r/MachineLearning、LLM benchmark 論文は出る頃には古くなるのかを議論

Comments (0)

Leave a Comment

Related Articles

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に
モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。

LLM judge、文書の33-67%で一貫性の崩れを隠した
LLM sources.research Apr 17, 2026 1 min read

r/MachineLearning、LLM benchmark 論文は出る頃には古くなるのかを議論
LLM Reddit Mar 13, 2026 1 min read