r/MachineLearning が示した LoCoMo audit、memory benchmark の信頼性に警鐘

Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →

Read in other languages: 한국어English
LLM Mar 28, 2026 By Insights AI (Reddit) 1 min read 1 views Source

r/MachineLearning が問題にしていること

r/MachineLearning のある議論は、long-term memory benchmark として広く引用されてきた LoCoMo をどこまで信頼してよいのかを改めて問い直している。投稿は 1,540 問を対象にした independent audit を要約し、その中で 99 件の score-corrupting error、つまり 6.4% の問題を見つけたと主張する。しかも論点は細かな typo ではない。answer key に存在しない事実の混入、誤った temporal reasoning、speaker attribution の取り違えによって、むしろ正しい system が減点され得るという指摘だ。

例はかなり具体的だ。ある設問では answer key が Ferrari 488 GTB を正答としているが、元の会話には “this beauty” という表現と “a red sports car” という caption しかないという。別の設問では Thursday 時点の “Last Saturday” を Sunday と誤って解釈している。さらに 24 問では発話者が誤って割り当てられているとされる。こうした理由から、投稿者は完全な system でも理論上およそ 93.6% 以上は取れないと論じている。

judge そのものへの批判

この Reddit 投稿は ground truth の修正提案だけで終わらない。LoCoMo 評価に使われる LLM judge が、強い system と弱い system を十分に見分けられていないと批判している。同じ judge 設定で、意図的に誤りを含むが話題だけは近い回答を 1,540 問すべてに作って評価したところ、62.81% が受理されたという。名前や日付のような明確な factual error は比較的検出された一方で、正しい会話を指していても具体情報を外している vague answer は高い確率で通ってしまったとされる。memory retrieval benchmark としては深刻な failure mode だ。

投稿は LongMemEval-S を自動的な代替とみなす考えにも慎重だ。こちらの問題は別で、test corpus 全体が現行 model の context window に収まるなら、score は persistent memory より context handling を測ってしまうという指摘だ。つまり benchmark design と benchmark judging の両方が同時に問われている。

なぜ重要か

この議論の価値は、leaderboard の数字ではなく evaluation infrastructure 自体に目を向けさせる点にある。ingestion pipeline、answer generation prompt、judge model がばらばらなら、小さな score 差は解釈しにくい。r/MachineLearning が投げかけているのは、LoCoMo を直すべきかどうかだけではない。memory system benchmark が強い主張を支えるには、より良い ground truth、より強い judge、そしてより標準化された protocol が必要だということだ。

Share: Long

Related Articles

LLM Reddit 6d ago 1 min read

新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.