『Shadow API』がLLM研究の再現性を壊しているという警告
Original: [R] shadow APIs breaking research reproducibility (arxiv 2603.01919) View original →
r/MachineLearningで共有された新しいarXiv論文は、frontier modelへのアクセス制限と価格の高さが広げたshadow APIが、LLM研究の再現性を直接損なっていると警告している。論文名は Real Money, Fake Models: Deceptive Model Claims in Shadow APIs で、公式のGPT-5やGeminiを提供すると謳いながら、実際には別モデルを返している可能性のある第三者APIを扱っている。
Redditで特に注目された数字は三つある。187本のacademic paperがこうしたサービスを利用していたこと、性能差が最大47%まで開いたこと、fingerprint型のidentity検証の45%が失敗したことだ。もしこれが事実なら、単なるbenchmarkのぶれではない。論文にGPT-5と書いてあっても、実際には別のbackend、別のsafety setting、別のdefaultで動いていた可能性がある。
コメント欄では、問題提起そのものには強い同意が集まった一方、appendixで対象provider名を公開していない点への不満も大きかった。再現性の危機を指摘しても、どのvendorを疑えばいいか分からなければ実務で使いにくいというわけだ。過去にAPIのdefaultが静かに変わり、再現作業で時間を失ったという体験談も並んだ。
この問題が重いのは、LLM評価がすでにprompt drift、version drift、system settingの不備で難しくなっているからだ。shadow APIはさらに根本的な不確実性を加える。研究者が、そもそも自分が主張しているmodelを本当に使っていたのかを確認しにくくなる。論文、製品QA、安全性評価、コンプライアンスのすべてに影響する話だ。
実務上の教訓は明快だ。可能なら公式providerを使い、access pathを明示し、結果を信じる前にfingerprintやsanity checkを入れるべきだ。原典: arXiv 2603.01919。コミュニティ反応: r/MachineLearning。
Related Articles
Anthropicは、Claude Opus 4.6がMozillaとの2週間の協業でFirefox脆弱性22件を発見したと発表した。Mozillaはそのうち14件をhigh severityと分類し、Firefox 148.0で修正を配布した。
OpenAIはPromptfooを買収し、そのsecurity/evaluation機能をOpenAI Frontierに統合すると発表した。Promptfooは現行ライセンスのままopen sourceで継続され、既存顧客へのサポートも続くという。
Googleは3月 5日、Google AI Center Berlinを開設し、Google DeepMind、Google Research、Google Cloudのteamsと研究者、企業、policy leadersを結ぶhubとして運営すると説明した。あわせてTUMとHelmholtz Munichとの長期research partnershipも発表した。
Comments (0)
No comments yet. Be the first to comment!