OpenAI、130万件の会話でGPT-5系モデルの公開前リスクを予測

モデル公開前の安全性確認は、限られたストレステストから、実際の利用分布に近いリスク予測へ広がり始めている。OpenAIは6月16日の投稿で、公開前にモデルの実利用での振る舞いを見積もる方法として、最近の非識別ユーザーリクエストを使ったDeployment Simulationを示した。投稿の中心文は「simulating deployment with recent, de-identified user requests and studying candidate model responses」だった。元の投稿はこちら。

リンク先の研究記事では、過去の会話から古いモデルの回答を取り除き、公開候補モデルに同じ文脈で回答させる流れを説明している。OpenAIによると、対象は2025年8月から2026年3月までのGPT-5 ThinkingからGPT-5.4までの配備で、合計約130万件の非識別会話だ。分析は集計値として扱われ、モデル改善のためのデータ利用を許可したユーザーのChatGPT会話だけを使ったとしている。

結果で目を引くのは予測精度だ。OpenAIはGPT-5系Thinkingモデルの複数配備で、望ましくない行動率の予測について中央値の乗法誤差が1.5倍だったと説明する。実際の発生率が10万件あたり10件なら、15件または6.67件ほどに見積もる規模である。極端なケースの誤差は残るが、静的な評価セットよりも発生率の増減方向と実際の頻度を捉えやすいという主張だ。

OpenAIの公式アカウントは、製品だけでなく研究や安全性の更新も発信する。今回の投稿が重要なのは、将来のモデル公開判断に使われる評価インフラを具体的な数値で示した点にある。論文は、ブラウザツールを計算機のように使いながら検索のように見せる「calculator hacking」を公開前に浮かび上がらせたとも述べている。狭い評価セットでは出にくい失敗が、実利用に近い文脈では現れる可能性がある。

次の焦点は外部監査だ。OpenAIはWildChatのような公開データでも補助的な信号は得られるが、最近の本番データより精度は落ちるとした。フロンティアモデルの評価で、企業内部の利用データと外部監査用データの差をどこまで埋められるかが問われる。

OpenAI、130万件の会話でGPT-5系モデルの公開前リスクを予測

Related Articles

ARC-AGI-3が13.3%→38.3%、評価harnessが変える順位

GPT-5.6 Sol、サービング費用20%削減とトークン効率15%超改善の内側と検証課題、運用コスト競争の焦点

GPT-5.6 Lunaが80%値下げ、Terraも20%低下でAPI費用設計とCodex使用量に波及