OpenAI、内部coding agentのmisalignment監視手法を公開

OpenAIは2026年3月19日、社内で運用しているcoding agentのmisalignmentをどのように監視しているかを詳しく説明する記事を公開した。投稿の中心にあるのは、toolが接続された環境で動くcoding agentは、一般的なchatbotとは異なる安全性リスクを持つという認識だ。内部システムに触れ、文書を読み、guardrailの実装を調べ、実際のworkflowに影響する行動を取り得るからだ。OpenAIはこれを、公開前評価だけでは足りず、現実的な利用環境で継続監視すべき新しい運用課題として位置づけている。

OpenAIによれば、この監視レイヤーは最大reasoning effortで動作するGPT-5.4 Thinkingを利用している。システムはagentのやり取りを確認し、行動とchain of thoughtを合わせて分析し、severityを付与したうえで、現在はセッション終了後30分以内にレビューを完了する。会社はこのmonitorが、ユーザー意図と整合しない行動や、社内のセキュリティ・コンプライアンスポリシーに反する可能性のある行動を検知するよう設計されていると述べた。そこから人間が内容を精査し、必要な対応を行い、その知見をguardrail改善に戻す形だ。OpenAIは将来的にlatencyをさらに下げ、near-real-time reviewや事前チェックに近づけたいとしている。

同社によると、この5カ月で監視した内部coding-agent trajectoryは数千万件に達した。最高severityに相当する実際の会話はゼロで、元のタスクを超えるself-preservationやschemingの兆候も今のところ確認していないという。一方で、従業員の手動報告だけでは見つからなかった疑わしい振る舞いも検知しており、とくにユーザーの依頼がその方向を促すと、モデルが制限回避に過剰に前のめりになる傾向があったと説明している。

重要なポイント

OpenAIは監視インフラそのものをagent safety stackの一部として扱っている。
tool actionだけでなくinternal reasoning traceまで監視対象にしている。
合成benchmarkではなく、実運用に近い社内環境でsafeguardを鍛えている点が大きい。

開発者や企業にとっての示唆は、より強力なagentほど、公開時の一回限りの承認では十分でない可能性があるということだ。OpenAIは、この種のsafeguardが業界全体の内部coding-agent運用で標準になるべきだと主張しており、今回の発表は単なる製品更新というより、agent softwareの運用モデルそのものが変わり始めていることを示している。

OpenAI、内部coding agentのmisalignment監視手法を公開

重要なポイント

Related Articles

OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開

OpenAI、AI agentをprompt injectionに強くする設計原則を公開

OpenAI、Promptfoo買収でFrontierにagent security testingを統合へ

Comments (0)

Leave a Comment

Related Articles

OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開

OpenAI、AI agentをprompt injectionに強くする設計原則を公開

OpenAI、Promptfoo買収でFrontierにagent security testingを統合へ