『Shadow API』がLLM研究の再現性を壊しているという警告

r/MachineLearningで共有された新しいarXiv論文は、frontier modelへのアクセス制限と価格の高さが広げたshadow APIが、LLM研究の再現性を直接損なっていると警告している。論文名は Real Money, Fake Models: Deceptive Model Claims in Shadow APIs で、公式のGPT-5やGeminiを提供すると謳いながら、実際には別モデルを返している可能性のある第三者APIを扱っている。

Redditで特に注目された数字は三つある。187本のacademic paperがこうしたサービスを利用していたこと、性能差が最大47%まで開いたこと、fingerprint型のidentity検証の45%が失敗したことだ。もしこれが事実なら、単なるbenchmarkのぶれではない。論文にGPT-5と書いてあっても、実際には別のbackend、別のsafety setting、別のdefaultで動いていた可能性がある。

コメント欄では、問題提起そのものには強い同意が集まった一方、appendixで対象provider名を公開していない点への不満も大きかった。再現性の危機を指摘しても、どのvendorを疑えばいいか分からなければ実務で使いにくいというわけだ。過去にAPIのdefaultが静かに変わり、再現作業で時間を失ったという体験談も並んだ。

この問題が重いのは、LLM評価がすでにprompt drift、version drift、system settingの不備で難しくなっているからだ。shadow APIはさらに根本的な不確実性を加える。研究者が、そもそも自分が主張しているmodelを本当に使っていたのかを確認しにくくなる。論文、製品QA、安全性評価、コンプライアンスのすべてに影響する話だ。

実務上の教訓は明快だ。可能なら公式providerを使い、access pathを明示し、結果を信じる前にfingerprintやsanity checkを入れるべきだ。原典: arXiv 2603.01919。コミュニティ反応: r/MachineLearning。

『Shadow API』がLLM研究の再現性を壊しているという警告

Related Articles

シエラレオネのGemini教室実験、問題への取り組み方の質問が68%から90%へ

Google DeepMind、有害なAI manipulationを実測するreal-world toolkitを公開

Google DeepMind、AGI進捗を測るcognitive frameworkを提案

Related Articles

シエラレオネのGemini教室実験、問題への取り組み方の質問が68%から90%へ
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。

Google DeepMind、有害なAI manipulationを実測するreal-world toolkitを公開
AI X/Twitter Mar 26, 2026 1 min read

Google DeepMind、AGI進捗を測るcognitive frameworkを提案
AI Mar 19, 2026 1 min read