7件中4件が再現できない、r/MachineLearningが再現性に戻った
Original: Failure to Reproduce Modern Paper Claims [D] View original →
r/MachineLearningのthreadは、小さいが鋭い数字から始まった。投稿者は今年、自分で確認できるpaper claimを7件試し、4件を再現できなかったという。さらに2件はGitHub上でactive unresolved issueが残っているとした。コメントでは、元paperへのlinkがない点も指摘された。それでも166 pointsが付いたのは、多くのML実務者にとって見慣れた症状だったからだ。
最も共感を集めた反応は、review processの穴を突いた。著者がcodeを共有していてもreviewerが実際に走らせることは少なく、ideaが面白そうか、storyが自然に見えるかで評価されがちだという。別のコメントはCVPRのような大規模venueでも、codeなし、空に近いGitHub repo、inference-only scriptが珍しくないと述べた。
threadが有用だったのは、不満だけで終わらなかった点だ。ある提案は、reproducibilityをsubmission artifactにすることだった。official server上でpackage install、dataset download、train、fast modeならweight download、evaluate、report PDF生成まで行うcodeを提出させる。乱暴に言えば make report-from-scratch --fast を通せ、という案である。
この投稿だけでmodern ML paperの大半が間違いだとは言えない。sampleは小さく、link不足も重要な制約だ。ただし問題の芯は見えている。ML resultはpreprocessing、data split、random seed、training detail、hardware assumptionに敏感で、その細部がPDFの外に落ちやすい。modelとbenchmarkが高価になるほど、再現失敗のcostも上がる。r/MachineLearningの熱は、claimをきれいな表ではなく実行できるartifactとして扱え、という圧力だった。
Related Articles
Google DeepMindがGeminiベースのマルチエージェントシステム「AI Co-Mathematician」を公開。FrontierMath Tier 4でAI史上最高の48%を達成し、AlphaEvolveは11〜20年間更新されていなかったラムゼー数5問の下限値を改善した。
ペンシルバニア大学の研究チームがエキシトン・ポラリトンを用いた光学信号スイッチングを実証。1演算あたり約4フェムトジュールという超低消費エネルギーで、全光AI推論への道を開く成果として注目される。
UCLAの研究チームが、マウス実験で物理的リハビリの効果を完全に再現する初の薬物DDL-920を発見した。Nature Communicationsに掲載されたこの研究は、脳卒中回復医療に新たな道を開く可能性がある。