7개 논문 claim 중 4개 재현 실패, r/MachineLearning이 다시 뜨거워졌다

r/MachineLearning의 재현 실패 thread는 거창한 benchmark 숫자보다 더 직접적인 피로감을 담고 있었다. 작성자는 올해 직접 확인 가능한 paper claim 7개를 시도했고, 그중 4개가 irreproducible이었다고 적었다. 또 2개는 GitHub에 active unresolved issue가 있다고 했다. 표본은 작고, 댓글에서도 source link가 없다는 지적이 나왔지만, 166점과 47개 댓글이 붙은 이유는 많은 연구자가 비슷한 경험을 이미 갖고 있기 때문이다.

가장 많은 공감을 받은 반응은 top conference review의 현실을 짚었다. Code가 공유되더라도 reviewer가 실제로 돌려보는 경우는 드물고, paper는 idea가 멋져 보이는지, story가 그럴듯한지에 따라 평가되는 일이 많다는 것이다. 다른 댓글은 CVPR 같은 대형 학회에서도 code가 없거나, 비어 있는 GitHub repo, inference-only script가 흔하다고 했다.

흥미로운 점은 thread가 단순한 불평에서 멈추지 않았다는 것이다. 한 사용자는 author가 official server에서 package 설치, dataset download, train 또는 weight download, evaluate, report PDF 생성을 자동으로 수행하게 해야 한다고 제안했다. make report-from-scratch --fast 같은 식의 재현 pipeline을 conference submission의 일부로 만들자는 주장이다.

이 논쟁의 핵심은 “모든 논문이 사기”라는 과장이 아니다. ML result는 preprocessing, data split, random seed, training detail, hardware 차이에 민감하다. 문제는 그 민감성이 paper 밖에 숨을 때다. r/MachineLearning의 에너지는 재현성 위기가 새롭기 때문이 아니라, model과 benchmark가 커질수록 실패 비용도 커졌기 때문에 다시 올라왔다. 이제 claim은 PDF의 문장만이 아니라, 실행 가능한 artifact로 검증되어야 한다는 압력이 커지고 있다.

7개 논문 claim 중 4개 재현 실패, r/MachineLearning이 다시 뜨거워졌다

Related Articles

전자 대신 빛-물질 결합 입자로 AI 연산 — 펜실베이니아大 돌파구

구글 딥마인드 AI 수학 공동 연구자, 수십 년 묵은 램지 수 5개 한계 갱신

Microsoft Discovery 정식 출시, 과학 R&D용 agent 플랫폼을 조직 단위로 확장

Related Articles

전자 대신 빛-물질 결합 입자로 AI 연산 — 펜실베이니아大 돌파구
Sciences May 23, 2026 1 min read

구글 딥마인드 AI 수학 공동 연구자, 수십 년 묵은 램지 수 5개 한계 갱신
Sciences May 16, 2026 1 min read

Microsoft Discovery 정식 출시, 과학 R&D용 agent 플랫폼을 조직 단위로 확장
Sciences Jun 4, 2026 1 min read