『Shadow API』がLLM研究の再現性を壊しているという警告
Original: [R] shadow APIs breaking research reproducibility (arxiv 2603.01919) View original →
r/MachineLearningで共有された新しいarXiv論文は、frontier modelへのアクセス制限と価格の高さが広げたshadow APIが、LLM研究の再現性を直接損なっていると警告している。論文名は Real Money, Fake Models: Deceptive Model Claims in Shadow APIs で、公式のGPT-5やGeminiを提供すると謳いながら、実際には別モデルを返している可能性のある第三者APIを扱っている。
Redditで特に注目された数字は三つある。187本のacademic paperがこうしたサービスを利用していたこと、性能差が最大47%まで開いたこと、fingerprint型のidentity検証の45%が失敗したことだ。もしこれが事実なら、単なるbenchmarkのぶれではない。論文にGPT-5と書いてあっても、実際には別のbackend、別のsafety setting、別のdefaultで動いていた可能性がある。
コメント欄では、問題提起そのものには強い同意が集まった一方、appendixで対象provider名を公開していない点への不満も大きかった。再現性の危機を指摘しても、どのvendorを疑えばいいか分からなければ実務で使いにくいというわけだ。過去にAPIのdefaultが静かに変わり、再現作業で時間を失ったという体験談も並んだ。
この問題が重いのは、LLM評価がすでにprompt drift、version drift、system settingの不備で難しくなっているからだ。shadow APIはさらに根本的な不確実性を加える。研究者が、そもそも自分が主張しているmodelを本当に使っていたのかを確認しにくくなる。論文、製品QA、安全性評価、コンプライアンスのすべてに影響する話だ。
実務上の教訓は明快だ。可能なら公式providerを使い、access pathを明示し、結果を信じる前にfingerprintやsanity checkを入れるべきだ。原典: arXiv 2603.01919。コミュニティ反応: r/MachineLearning。
Related Articles
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。
Google DeepMindは2026年3月26日、会話型AIが感情を悪用したり、人を有害な選択へ誘導したりする可能性を扱う新研究を公開した。英国・米国・インドの1万人超が参加した9件の研究をもとに、harmful AI manipulationを測定する初のempirically validated toolkitを構築したという。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。