r/MachineLearning が示した LoCoMo audit、memory benchmark の信頼性に警鐘
Original: [D] We audited LoCoMo: 6.4% of the answer key is wrong and the judge accepts up to 63% of intentionally wrong answers View original →
r/MachineLearning が問題にしていること
r/MachineLearning のある議論は、long-term memory benchmark として広く引用されてきた LoCoMo をどこまで信頼してよいのかを改めて問い直している。投稿は 1,540 問を対象にした independent audit を要約し、その中で 99 件の score-corrupting error、つまり 6.4% の問題を見つけたと主張する。しかも論点は細かな typo ではない。answer key に存在しない事実の混入、誤った temporal reasoning、speaker attribution の取り違えによって、むしろ正しい system が減点され得るという指摘だ。
例はかなり具体的だ。ある設問では answer key が Ferrari 488 GTB を正答としているが、元の会話には “this beauty” という表現と “a red sports car” という caption しかないという。別の設問では Thursday 時点の “Last Saturday” を Sunday と誤って解釈している。さらに 24 問では発話者が誤って割り当てられているとされる。こうした理由から、投稿者は完全な system でも理論上およそ 93.6% 以上は取れないと論じている。
judge そのものへの批判
この Reddit 投稿は ground truth の修正提案だけで終わらない。LoCoMo 評価に使われる LLM judge が、強い system と弱い system を十分に見分けられていないと批判している。同じ judge 設定で、意図的に誤りを含むが話題だけは近い回答を 1,540 問すべてに作って評価したところ、62.81% が受理されたという。名前や日付のような明確な factual error は比較的検出された一方で、正しい会話を指していても具体情報を外している vague answer は高い確率で通ってしまったとされる。memory retrieval benchmark としては深刻な failure mode だ。
投稿は LongMemEval-S を自動的な代替とみなす考えにも慎重だ。こちらの問題は別で、test corpus 全体が現行 model の context window に収まるなら、score は persistent memory より context handling を測ってしまうという指摘だ。つまり benchmark design と benchmark judging の両方が同時に問われている。
なぜ重要か
この議論の価値は、leaderboard の数字ではなく evaluation infrastructure 自体に目を向けさせる点にある。ingestion pipeline、answer generation prompt、judge model がばらばらなら、小さな score 差は解釈しにくい。r/MachineLearning が投げかけているのは、LoCoMo を直すべきかどうかだけではない。memory system benchmark が強い主張を支えるには、より良い ground truth、より強い judge、そしてより標準化された protocol が必要だということだ。
Related Articles
Microsoft Researchは、長いagent trajectoryの中で最初のcritical failure stepを見つけるAgentRxを公開した。115件のfailed trajectory benchmarkとnine-category taxonomyも同時に公開し、failure localizationとroot-cause attributionの改善値を示している。
r/LocalLLaMA に投稿された rerun benchmark は、Apple M5 Max の強みが token generation 単体より prompt processing にあると主張する。Qwen 3.5 35B-A3B MoE の 2,845 tok/s PP512 などの数値は community measurement であり、独立 lab benchmark ではない。
新しい r/LocalLLaMA スレッドは、Graph-RAG の multi-hop QA における bottleneck が retrieval ではなく reasoning かもしれないという結果を押し上げた。structured prompting と graph-based context compression を組み合わせれば、open な Llama 8B が plain 70B baseline に対抗できるという主張が核だ。
Comments (0)
No comments yet. Be the first to comment!