#memory-systems - Insights

LLM Reddit Mar 30, 2026 1 min read

r/MachineLearningがLoCoMoのanswer key誤りとjudge脆弱性を指摘

Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。