r/MachineLearning, LLM benchmark 논문이 발표될 때쯤 이미 낡아버리는지 논쟁
Original: [D] What is even the point of these LLM benchmarking papers? View original →
r/MachineLearning의 높은 호응을 얻은 글 하나는 많은 practitioner가 이미 속으로 묻고 있던 질문을 정면으로 던졌다. proprietary model이 몇 달 단위로 바뀌고, 이전 version은 사라지며, paper가 나올 때쯤 leaderboard 결과가 이미 낡아버린다면, LLM benchmarking paper의 정확한 의미는 무엇이냐는 것이다. 원글은 NeurIPS나 ICLR에서 자주 보이는, task X 위에서 closed model들을 비교하지만 연구 주기가 끝나기 전에 그 model 자체가 업데이트되거나 사라져버리는 논문들을 겨냥했다.
댓글의 상당수는 매우 냉소적이었다. 몇몇 이용자는 진짜 답은 publish-or-perish라고 잘라 말했다. benchmarking paper가 계속 나오는 이유는 그것이 비교적 손쉬운 academic output 단위이기 때문이지, 언제나 오래 가는 scientific insight를 주기 때문은 아니라는 것이다. 또 다른 댓글은 이런 paper를 research로 포장된 product review에 가깝다고 표현했고, 끝없이 반복되는 작은 benchmark 향상과 일회성 evaluation set이 conference의 signal-to-noise를 악화시킨다고 지적했다.
하지만 가장 설득력 있던 답변은 단순한 부정보다 더 미묘했다. 한 practitioner는 headline ranking은 금방 쓸모없어지더라도, 그 paper가 만든 dataset은 여전히 가치가 있을 수 있다고 설명했다. 실제로 자기 팀은 benchmark paper의 evaluation set을 가져와 내부 agent pipeline을 시험하고, model을 바꿀 때 regression을 잡는 데 활용한다고 했다. 이 구분은 많은 독자에게 설득력 있게 다가갔다. paper 수준의 결론은 빨리 만료되지만, 구체적인 test case는 더 오래 남아 실전용 evaluation asset이 될 수 있다는 뜻이다.
스레드는 2026년에 더 중요한 두 번째 비판도 드러냈다. benchmark는 대체로 model을 단독으로 시험하지만, 실제 production system은 retrieval, tool use, planning, formatting이 연결된 multi-step chain이며, 오류는 단계마다 누적된다. 표준 benchmark에서 1~2점 오른 model이 8-step agent workflow의 파손을 줄이는 데는 아무 도움이 안 될 수 있다. 그래서 여러 댓글은 조직이 generic benchmark table보다 실제 failure에서 뽑아낸 custom eval suite를 더 필요로 하게 됐다고 주장했다.
결국 이 토론이 드러내는 것은 academic evaluation과 operational evaluation 사이의 간극이다. frontier model과 API-only model이 계속 움직이는 표적이라면, paper의 오래가는 기여는 고정된 ranking보다 task design, dataset, methodology에 있을 가능성이 크다. 그런 의미에서 이 스레드는 benchmark 자체를 부정한다기보다, 얕은 benchmarking에 반대하는 쪽에 가깝다. 출처: r/MachineLearning 토론.
Related Articles
Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.
Google은 Gemini in Google Sheets가 전체 SpreadsheetBench에서 70.48%를 기록해 human expert 수준에 근접했다고 밝혔다. 회사는 이 결과가 product-specific tuning과 강화된 verbalization, coding capability에서 나왔다고 설명했다.
고득점 r/MachineLearning 글은 David Noel Ng의 장문 blog를 가리키며, Qwen2-72B의 중간 7개 layer block을 복제하는 방식만으로 leaderboard 상단에 올랐다는 주장과 circuit-like 구조 해석을 다시 불러냈다.
Comments (0)
No comments yet. Be the first to comment!