OpenAI、内部coding agentのmisalignment監視体制を公開
Original: How we monitor internal coding agents for misalignment View original →
何が公開されたか
OpenAIは2026年3月19日、内部coding agentのmisalignmentをどのように監視しているかを説明するレポートを公開した。要点は、offline benchmarkだけで安全性を判断するのではなく、実際のinternal deploymentでagentがどのように振る舞うかを継続的に観察することにある。
OpenAIによれば、内部coding agentはselect internal systemsにアクセスでき、safeguardsに関するcodeやdocumentationを読める場合があり、場合によってはそれらを変更しようとする可能性もある。こうした環境はconsumer向けより高リスクだが、そのぶんmonitoring infrastructureを鍛える最も厳しい条件でもある。
監視はどう動くのか
ブログによると、現在のasynchronous monitoring stackはagent trajectory、tool call、model-visible evidenceをレビューしてmisalignmentの可能性を採点し、人間へescalationする。OpenAIは、このmonitorが把握しているemployee escalationをすべて捉えたうえで、従来なら見落とされやすかった追加事例も発見したとしている。
監視対象の例としては、encoding commands、prompt injecting the user、extracting credentialsが挙げられている。さらにOpenAIは、agentがpull requestを破壊的に改変しようとする評価では最新monitorがperfect performanceを出したと述べたが、それでもopen-endedなreal-world trafficにおけるfalse negative問題が解決したとは見なしていない。control evaluation、privacyとsecurity hardening、よりよいrecall推定が引き続き必要だと明示している。
なぜ重要か
この発表が示すのは、AI safetyの重心がmodel trainingやbenchmark scoreからproduction instrumentationへ移りつつあることだ。OpenAIは、monitorの対応範囲外のtrafficが現在0.1%未満だと説明し、将来的にはhigh-risk actionを実行前に止めるsynchronous blockingまで広げたいとしている。coding agentの権限と作業時間が伸びるほど、競争力はmodel capabilityだけでなくdeployment architectureとoversightの質でも決まるようになる。
Related Articles
OpenAIはCodexのcomputer useをWindowsへ広げ、コーディングエージェントが動ける場所を変えた。5月29日の投稿は95万回超表示され、ChatGPTモバイルからWindows上の作業を確認・指示できるという。
OpenAI frontier modelsとCodexがAmazon Bedrockで一般提供になった。120万超の閲覧を集めた投稿は、企業の既存AWS統制内でOpenAIを使う経路を示している。
OpenAIのTibo Sottiauxは2026年4月7日のXで、Codexの週間利用者が300万人に達したと述べた。彼は200万人から300万人への増加が1か月未満だったと説明し、OpenAIは1000万人に達するまで100万人増えるたびにusage limitsをリセットするとした。
Comments (0)
No comments yet. Be the first to comment!