LLM Reddit Mar 30, 2026 1 min read
Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。
Penfield LabsはLoCoMoの1,540問中99問にscoreを歪める誤りがあると主張し、gpt-4o-mini judgeが意図的に誤った回答の62.81%を通したと報告してbenchmarkの信頼性問題を浮かび上がらせた。