r/MachineLearning が示した LoCoMo audit、memory benchmark の信頼性に警鐘

r/MachineLearning が問題にしていること

r/MachineLearning のある議論は、long-term memory benchmark として広く引用されてきた LoCoMo をどこまで信頼してよいのかを改めて問い直している。投稿は 1,540 問を対象にした independent audit を要約し、その中で 99 件の score-corrupting error、つまり 6.4% の問題を見つけたと主張する。しかも論点は細かな typo ではない。answer key に存在しない事実の混入、誤った temporal reasoning、speaker attribution の取り違えによって、むしろ正しい system が減点され得るという指摘だ。

例はかなり具体的だ。ある設問では answer key が Ferrari 488 GTB を正答としているが、元の会話には “this beauty” という表現と “a red sports car” という caption しかないという。別の設問では Thursday 時点の “Last Saturday” を Sunday と誤って解釈している。さらに 24 問では発話者が誤って割り当てられているとされる。こうした理由から、投稿者は完全な system でも理論上およそ 93.6% 以上は取れないと論じている。

judge そのものへの批判

この Reddit 投稿は ground truth の修正提案だけで終わらない。LoCoMo 評価に使われる LLM judge が、強い system と弱い system を十分に見分けられていないと批判している。同じ judge 設定で、意図的に誤りを含むが話題だけは近い回答を 1,540 問すべてに作って評価したところ、62.81% が受理されたという。名前や日付のような明確な factual error は比較的検出された一方で、正しい会話を指していても具体情報を外している vague answer は高い確率で通ってしまったとされる。memory retrieval benchmark としては深刻な failure mode だ。

投稿は LongMemEval-S を自動的な代替とみなす考えにも慎重だ。こちらの問題は別で、test corpus 全体が現行 model の context window に収まるなら、score は persistent memory より context handling を測ってしまうという指摘だ。つまり benchmark design と benchmark judging の両方が同時に問われている。

なぜ重要か

この議論の価値は、leaderboard の数字ではなく evaluation infrastructure 自体に目を向けさせる点にある。ingestion pipeline、answer generation prompt、judge model がばらばらなら、小さな score 差は解釈しにくい。r/MachineLearning が投げかけているのは、LoCoMo を直すべきかどうかだけではない。memory system benchmark が強い主張を支えるには、より良い ground truth、より強い judge、そしてより標準化された protocol が必要だということだ。

r/MachineLearning が示した LoCoMo audit、memory benchmark の信頼性に警鐘

r/MachineLearning が問題にしていること

judge そのものへの批判

なぜ重要か

Related Articles

Microsoft Research、AI agentの最初の致命的失敗点を特定するAgentRxをopen-source公開

r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる

Comments (0)

Leave a Comment

Related Articles

Microsoft Research、AI agentの最初の致命的失敗点を特定するAgentRxをopen-source公開

r/LocalLLaMA benchmark、M5 Max は MoE の prompt processing で特に強いという主張

r/LocalLLaMAが見たGraph-RAG、Llama 8Bでもmulti-hop QAで70Bに迫れる