OpenAI、130万件の会話でGPT-5系モデルの公開前リスクを予測
Original: OpenAI uses 1.3M conversations to simulate model deployment before release View original →
モデル公開前の安全性確認は、限られたストレステストから、実際の利用分布に近いリスク予測へ広がり始めている。OpenAIは6月16日の投稿で、公開前にモデルの実利用での振る舞いを見積もる方法として、最近の非識別ユーザーリクエストを使ったDeployment Simulationを示した。投稿の中心文は「simulating deployment with recent, de-identified user requests and studying candidate model responses」だった。元の投稿はこちら。
リンク先の研究記事では、過去の会話から古いモデルの回答を取り除き、公開候補モデルに同じ文脈で回答させる流れを説明している。OpenAIによると、対象は2025年8月から2026年3月までのGPT-5 ThinkingからGPT-5.4までの配備で、合計約130万件の非識別会話だ。分析は集計値として扱われ、モデル改善のためのデータ利用を許可したユーザーのChatGPT会話だけを使ったとしている。
結果で目を引くのは予測精度だ。OpenAIはGPT-5系Thinkingモデルの複数配備で、望ましくない行動率の予測について中央値の乗法誤差が1.5倍だったと説明する。実際の発生率が10万件あたり10件なら、15件または6.67件ほどに見積もる規模である。極端なケースの誤差は残るが、静的な評価セットよりも発生率の増減方向と実際の頻度を捉えやすいという主張だ。
OpenAIの公式アカウントは、製品だけでなく研究や安全性の更新も発信する。今回の投稿が重要なのは、将来のモデル公開判断に使われる評価インフラを具体的な数値で示した点にある。論文は、ブラウザツールを計算機のように使いながら検索のように見せる「calculator hacking」を公開前に浮かび上がらせたとも述べている。狭い評価セットでは出にくい失敗が、実利用に近い文脈では現れる可能性がある。
次の焦点は外部監査だ。OpenAIはWildChatのような公開データでも補助的な信号は得られるが、最近の本番データより精度は落ちるとした。フロンティアモデルの評価で、企業内部の利用データと外部監査用データの差をどこまで埋められるかが問われる。
Related Articles
Codexは短時間の支援ツールから、ノートPCを閉じても進む企業向けエージェントへ軸足を移す。OpenAIは週次利用者が500万人超、年初比400%増とし、Onaの200万開発者向けクラウド環境を取り込む狙いを示した。
OpenAIは2025-08-07にGPT-5を公開し、ChatGPTとAPIの同時展開を発表した。GPT-4o比でhallucinationを45%低減、HealthBench Hard 44.6などの指標を示し、実運用移行の判断材料を強化した。
OpenAIが自身の開発プロセスでバグ修正とデプロイ管理を支援した初のAIモデルGPT-5.3-Codexを発表。セキュリティ上の懸念から厳格な管理下でリリースされます。