r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘
Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →
2026年3月27日にr/MachineLearningへ投稿されたdiscussion postは、long-term memory benchmarkをどう読むべきかを改めて問い直している。Penfield Labsは、LoCoMoが今も広く引用されている一方で、1,540問のanswer keyのうち99問にscoreを歪める誤りがあり、比率は6.4%に達すると主張した。さらに同じ投稿では、gpt-4o-miniで構成されたLLM judgeが、意図的に誤っているが話題だけは近い回答の62.81%を通してしまったと述べている。memory systemを評価するはずのscoreboardが、かなり大きなnoiseの上に立っている可能性があるという指摘だ。
提示された例は具体的だ。ある問題のanswer keyは「Ferrari 488 GTB」を期待しているが、実際のconversationには「this beauty」としかなく、モデルが見られるcaptionも「a red sports car」だけだという。車種名は、systemがingestしない内部query fieldにしか存在しないという説明である。別の問題では、Thursday基準の「last Saturday」がSundayとして処理され、さらに24問ではspeaker attributionが誤っているとされる。これらが正しければ、perfect systemでも100%は取れず、投稿では理論上の上限を約93.6%と見積もっている。
批判はLoCoMoだけに向けられていない。投稿者はLongMemEval-Sについても、各質問のcorpusが約115K tokenで、現行モデルの128Kから1M context windowに収まってしまうため、long-term memory retrievalよりもcontext-window managementを測っている側面が強いと論じる。LoCoMo-Plusは、lexical overlapの弱い「cognitive」質問を加えた点では前進だが、元のLoCoMo 1,540問をそのまま継承しており、旧来カテゴリは同じground truthとjudge構成に依存したままだとも指摘する。
このスレッドが重要なのは、単にerror countが大きいからではない。benchmark governanceそのものがinfrastructureだと再認識させるからだ。projectごとにingestion pipeline、prompt、embedding model、judge configurationが違うなら、公表された表はすでに同じ物差しの比較ではない。Penfield Labsは、現行context windowを超えるcorpus、adversarial judge validation、より強いevaluator、そして方法論の完全開示を求めた。persistent memory systemを作るteamに対して、r/MachineLearningのメッセージは明快だ。measurement stackが信頼できなければ、leaderboardも信頼しにくい。
Related Articles
モデル順位表の弱点は、モデルではなく問題側にあるかもしれない。新しいarXiv論文は、評価タスクの25.7%以上に重大な問題を見つけ、欠陥タスクを除くとSWE-bench Verifiedの平均性能が9.9%動くと報告した。
新しいarXiv論文は、低い平均違反率の裏でLLM judgeの入力別不安定性が見えにくくなる問題を示した。SummEvalでは文書の33-67%に少なくとも1つのdirected 3-cycleがあり、prediction set widthはabsolute errorと強く結びついた。
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
Comments (0)
No comments yet. Be the first to comment!