Skip to content

#conferences

RSS Feed
LLM Reddit Mar 13, 2026 1 min read

r/MachineLearningの高反応スレッドは、proprietary model が毎月変わり古い version が消える中で、benchmark 論文に何が残るのかを問うた。もっとも支持された見方は、ranking はすぐ古くなる一方で、dataset や failure case は長く使える eval asset になり得るというものだった。