OpenAI、内部coding agentのmisalignment監視体制を公開

何が公開されたか

OpenAIは2026年3月19日、内部coding agentのmisalignmentをどのように監視しているかを説明するレポートを公開した。要点は、offline benchmarkだけで安全性を判断するのではなく、実際のinternal deploymentでagentがどのように振る舞うかを継続的に観察することにある。

OpenAIによれば、内部coding agentはselect internal systemsにアクセスでき、safeguardsに関するcodeやdocumentationを読める場合があり、場合によってはそれらを変更しようとする可能性もある。こうした環境はconsumer向けより高リスクだが、そのぶんmonitoring infrastructureを鍛える最も厳しい条件でもある。

監視はどう動くのか

ブログによると、現在のasynchronous monitoring stackはagent trajectory、tool call、model-visible evidenceをレビューしてmisalignmentの可能性を採点し、人間へescalationする。OpenAIは、このmonitorが把握しているemployee escalationをすべて捉えたうえで、従来なら見落とされやすかった追加事例も発見したとしている。

監視対象の例としては、encoding commands、prompt injecting the user、extracting credentialsが挙げられている。さらにOpenAIは、agentがpull requestを破壊的に改変しようとする評価では最新monitorがperfect performanceを出したと述べたが、それでもopen-endedなreal-world trafficにおけるfalse negative問題が解決したとは見なしていない。control evaluation、privacyとsecurity hardening、よりよいrecall推定が引き続き必要だと明示している。

なぜ重要か

この発表が示すのは、AI safetyの重心がmodel trainingやbenchmark scoreからproduction instrumentationへ移りつつあることだ。OpenAIは、monitorの対応範囲外のtrafficが現在0.1%未満だと説明し、将来的にはhigh-risk actionを実行前に止めるsynchronous blockingまで広げたいとしている。coding agentの権限と作業時間が伸びるほど、競争力はmodel capabilityだけでなくdeployment architectureとoversightの質でも決まるようになる。

OpenAI、内部coding agentのmisalignment監視体制を公開

何が公開されたか

監視はどう動くのか

なぜ重要か

Related Articles

CodexがWindows PCを直接操作し、ChatGPTモバイルから開発作業を続ける技術的意味

OpenAIモデルとCodex、AWS Bedrock一般提供で企業AI導入の新しい経路を拡大へ進む

OpenAI、Codexの週間利用者が300万人に到達と発表… 100万人増えるごとにusage limitsを再設定

Comments (0)

Leave a Comment