7개 논문 claim 중 4개 재현 실패, r/MachineLearning이 다시 뜨거워졌다

r/MachineLearning의 재현 실패 thread는 거창한 benchmark 숫자보다 더 직접적인 피로감을 담고 있었다. 작성자는 올해 직접 확인 가능한 paper claim 7개를 시도했고, 그중 4개가 irreproducible이었다고 적었다. 또 2개는 GitHub에 active unresolved issue가 있다고 했다. 표본은 작고, 댓글에서도 source link가 없다는 지적이 나왔지만, 166점과 47개 댓글이 붙은 이유는 많은 연구자가 비슷한 경험을 이미 갖고 있기 때문이다.

가장 많은 공감을 받은 반응은 top conference review의 현실을 짚었다. Code가 공유되더라도 reviewer가 실제로 돌려보는 경우는 드물고, paper는 idea가 멋져 보이는지, story가 그럴듯한지에 따라 평가되는 일이 많다는 것이다. 다른 댓글은 CVPR 같은 대형 학회에서도 code가 없거나, 비어 있는 GitHub repo, inference-only script가 흔하다고 했다.

흥미로운 점은 thread가 단순한 불평에서 멈추지 않았다는 것이다. 한 사용자는 author가 official server에서 package 설치, dataset download, train 또는 weight download, evaluate, report PDF 생성을 자동으로 수행하게 해야 한다고 제안했다. make report-from-scratch --fast 같은 식의 재현 pipeline을 conference submission의 일부로 만들자는 주장이다.

이 논쟁의 핵심은 “모든 논문이 사기”라는 과장이 아니다. ML result는 preprocessing, data split, random seed, training detail, hardware 차이에 민감하다. 문제는 그 민감성이 paper 밖에 숨을 때다. r/MachineLearning의 에너지는 재현성 위기가 새롭기 때문이 아니라, model과 benchmark가 커질수록 실패 비용도 커졌기 때문에 다시 올라왔다. 이제 claim은 PDF의 문장만이 아니라, 실행 가능한 artifact로 검증되어야 한다는 압력이 커지고 있다.

Sciences 3d ago 2 min read

OpenAI, ChatGPT가 scientific collaborator로 자리잡고 있다고 보고

OpenAI는 ChatGPT가 science와 mathematics에서 이미 research-scale로 쓰이고 있다고 밝혔다. 2026년 1월 보고서에 따르면 advanced science·math usage는 주당 8.4 million messages, weekly users는 약 1.3 million에 이르렀고, GPT-5.2는 serious mathematical work에서도 초기 성과를 보이기 시작했다.

#openai #science #chatgpt

Sciences sources.twitter Mar 25, 2026 1 min read

Anthropic, AI 기반 연구 workflow와 성과를 다루는 Science Blog 시작

Anthropic는 2026년 3월 23일 AI가 연구 관행과 scientific discovery를 어떻게 바꾸는지에 초점을 맞춘 Science Blog를 시작한다고 밝혔다. 새 블로그는 feature story, workflow guide, field note를 통해 Anthropic의 AI-for-science 전략을 더 지속적인 프로그램으로 보여 준다.

#anthropic #science #research

Sciences sources.twitter Mar 31, 2026 1 min read

Meta, TRIBE v2 공개… in-silico neuroscience용 tri-modal foundation model 제시

Meta는 2026년 3월 26일 X에서 TRIBE v2를 공개하며 sight·sound·language에 대한 human brain response를 예측하는 foundation model이라고 설명했다. 논문과 demo는 zero-shot generalization, 70,000 voxels 규모 예측, 공개된 paper·code·model weights를 핵심 포인트로 제시한다.

#meta #neuroscience #fmri

7개 논문 claim 중 4개 재현 실패, r/MachineLearning이 다시 뜨거워졌다

Related Articles

OpenAI, ChatGPT가 scientific collaborator로 자리잡고 있다고 보고

Anthropic, AI 기반 연구 workflow와 성과를 다루는 Science Blog 시작

Meta, TRIBE v2 공개… in-silico neuroscience용 tri-modal foundation model 제시

Comments (0)

Leave a Comment