Skip to content

#evaluation

RSS Feed
LLM Reddit Mar 13, 2026 1 min read

r/MachineLearning의 한 고득점 토론은 proprietary model이 매달 바뀌고 이전 version이 사라지는 상황에서 benchmark 논문이 무엇을 남기는지 묻는다. 가장 설득력 있었던 답변은 ranking은 빨리 낡지만, dataset과 failure case는 오래 남아 실전 eval asset이 될 수 있다는 것이었다.