7件中4件が再現できない、r/MachineLearningが再現性に戻った
Original: Failure to Reproduce Modern Paper Claims [D] View original →
r/MachineLearningのthreadは、小さいが鋭い数字から始まった。投稿者は今年、自分で確認できるpaper claimを7件試し、4件を再現できなかったという。さらに2件はGitHub上でactive unresolved issueが残っているとした。コメントでは、元paperへのlinkがない点も指摘された。それでも166 pointsが付いたのは、多くのML実務者にとって見慣れた症状だったからだ。
最も共感を集めた反応は、review processの穴を突いた。著者がcodeを共有していてもreviewerが実際に走らせることは少なく、ideaが面白そうか、storyが自然に見えるかで評価されがちだという。別のコメントはCVPRのような大規模venueでも、codeなし、空に近いGitHub repo、inference-only scriptが珍しくないと述べた。
threadが有用だったのは、不満だけで終わらなかった点だ。ある提案は、reproducibilityをsubmission artifactにすることだった。official server上でpackage install、dataset download、train、fast modeならweight download、evaluate、report PDF生成まで行うcodeを提出させる。乱暴に言えば make report-from-scratch --fast を通せ、という案である。
この投稿だけでmodern ML paperの大半が間違いだとは言えない。sampleは小さく、link不足も重要な制約だ。ただし問題の芯は見えている。ML resultはpreprocessing、data split、random seed、training detail、hardware assumptionに敏感で、その細部がPDFの外に落ちやすい。modelとbenchmarkが高価になるほど、再現失敗のcostも上がる。r/MachineLearningの熱は、claimをきれいな表ではなく実行できるartifactとして扱え、という圧力だった。
Related Articles
OpenAIは、ChatGPTがscienceとmathematicsで既にresearch-scaleで使われていると述べた。2026年1月の報告書では、advanced science・math usageが週8.4 million messages、weekly userが約1.3 millionに達し、GPT-5.2がserious mathematical workでも初期成果を見せ始めたとしている。
Anthropicは2026年3月23日、AIが研究実務とscientific discoveryをどう変えるかに焦点を当てたScience Blogを立ち上げると発表した。新しいblogはfeature、workflow guide、field noteを通じてAnthropicのAI-for-science戦略を継続的なプログラムとして見せている。
Metaは2026年3月26日、XでTRIBE v2を公開し、sight、sound、languageに対するhuman brain responseを予測するfoundation modelだと説明した。関連するpaperとdemoは、zero-shot generalization、70,000 voxels規模の予測、paper・code・model weightsの公開を主要なポイントとして示している。
Comments (0)
No comments yet. Be the first to comment!