LLM Reddit Mar 13, 2026 1 min read
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。
r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。