r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘
Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →
2026年3月27日にr/MachineLearningへ投稿されたdiscussion postは、long-term memory benchmarkをどう読むべきかを改めて問い直している。Penfield Labsは、LoCoMoが今も広く引用されている一方で、1,540問のanswer keyのうち99問にscoreを歪める誤りがあり、比率は6.4%に達すると主張した。さらに同じ投稿では、gpt-4o-miniで構成されたLLM judgeが、意図的に誤っているが話題だけは近い回答の62.81%を通してしまったと述べている。memory systemを評価するはずのscoreboardが、かなり大きなnoiseの上に立っている可能性があるという指摘だ。
提示された例は具体的だ。ある問題のanswer keyは「Ferrari 488 GTB」を期待しているが、実際のconversationには「this beauty」としかなく、モデルが見られるcaptionも「a red sports car」だけだという。車種名は、systemがingestしない内部query fieldにしか存在しないという説明である。別の問題では、Thursday基準の「last Saturday」がSundayとして処理され、さらに24問ではspeaker attributionが誤っているとされる。これらが正しければ、perfect systemでも100%は取れず、投稿では理論上の上限を約93.6%と見積もっている。
批判はLoCoMoだけに向けられていない。投稿者はLongMemEval-Sについても、各質問のcorpusが約115K tokenで、現行モデルの128Kから1M context windowに収まってしまうため、long-term memory retrievalよりもcontext-window managementを測っている側面が強いと論じる。LoCoMo-Plusは、lexical overlapの弱い「cognitive」質問を加えた点では前進だが、元のLoCoMo 1,540問をそのまま継承しており、旧来カテゴリは同じground truthとjudge構成に依存したままだとも指摘する。
このスレッドが重要なのは、単にerror countが大きいからではない。benchmark governanceそのものがinfrastructureだと再認識させるからだ。projectごとにingestion pipeline、prompt、embedding model、judge configurationが違うなら、公表された表はすでに同じ物差しの比較ではない。Penfield Labsは、現行context windowを超えるcorpus、adversarial judge validation、より強いevaluator、そして方法論の完全開示を求めた。persistent memory systemを作るteamに対して、r/MachineLearningのメッセージは明快だ。measurement stackが信頼できなければ、leaderboardも信頼しにくい。
Related Articles
r/MachineLearning の LoCoMo audit 投稿は、1,540 問のうち 99 問に score-corrupting error があり、judge が意図的に誤った回答も 62.81% 受け入れたと主張している。論点は leaderboard そのものより、memory benchmark の ground truth と judge の信頼性に移っている。
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。
Microsoft Researchは、長いagent trajectoryの中で最初のcritical failure stepを見つけるAgentRxを公開した。115件のfailed trajectory benchmarkとnine-category taxonomyも同時に公開し、failure localizationとroot-cause attributionの改善値を示している。
Comments (0)
No comments yet. Be the first to comment!