7件中4件が再現できない、r/MachineLearningが再現性に戻った

r/MachineLearningのthreadは、小さいが鋭い数字から始まった。投稿者は今年、自分で確認できるpaper claimを7件試し、4件を再現できなかったという。さらに2件はGitHub上でactive unresolved issueが残っているとした。コメントでは、元paperへのlinkがない点も指摘された。それでも166 pointsが付いたのは、多くのML実務者にとって見慣れた症状だったからだ。

最も共感を集めた反応は、review processの穴を突いた。著者がcodeを共有していてもreviewerが実際に走らせることは少なく、ideaが面白そうか、storyが自然に見えるかで評価されがちだという。別のコメントはCVPRのような大規模venueでも、codeなし、空に近いGitHub repo、inference-only scriptが珍しくないと述べた。

threadが有用だったのは、不満だけで終わらなかった点だ。ある提案は、reproducibilityをsubmission artifactにすることだった。official server上でpackage install、dataset download、train、fast modeならweight download、evaluate、report PDF生成まで行うcodeを提出させる。乱暴に言えば make report-from-scratch --fast を通せ、という案である。

この投稿だけでmodern ML paperの大半が間違いだとは言えない。sampleは小さく、link不足も重要な制約だ。ただし問題の芯は見えている。ML resultはpreprocessing、data split、random seed、training detail、hardware assumptionに敏感で、その細部がPDFの外に落ちやすい。modelとbenchmarkが高価になるほど、再現失敗のcostも上がる。r/MachineLearningの熱は、claimをきれいな表ではなく実行できるartifactとして扱え、という圧力だった。

7件中4件が再現できない、r/MachineLearningが再現性に戻った

Related Articles

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ

BMS、Vera Rubin 8ラックでdrug discovery用AI工場を全研究者へ

毎秒100,000枚の実験データ、Metaモデルがbeamline解析へ

Related Articles

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ
Sciences X/Twitter Jul 1, 2026 1 min read

BMS、Vera Rubin 8ラックでdrug discovery用AI工場を全研究者へ

毎秒100,000枚の実験データ、Metaモデルがbeamline解析へ
DOEのlight source施設では、データ生成速度が人手の解析を超え始めている。MetaはBerkeley LabのSYNAPS-IがSAM 3とDINOv3を使い、毎秒100,000枚級のdetector画像に対応すると説明した。