OpenAI、AI agentをprompt injectionに強くする設計原則を公開
Original: Designing AI agents to resist prompt injection View original →
OpenAIは2026年3月11日のresearch postで、AI systemがbrowseやmessage reading、tool executionを伴うagentになると、prompt injectionは単なるprompt-engineering上の悩みではなく、第一級のsecurity problemになると強調した。OpenAIはこの攻撃を、email、web page、calendar inviteのようなuntrusted contentに埋め込まれた悪意あるinstructionだと定義する。agentがその内容を読み込むと、隠れたinstructionがdeveloperの意図した振る舞いを上書きし、望まないactionへ誘導し得る。
難しいのは、この問題が構造的だという点だ。Large language modelは、どこに書かれたinstructionでも従うよう訓練される。一方、agentic productはtrusted instructionとuntrusted user dataを同じworkflow内で扱わなければならない。その結果、dataとcontrolの境界が従来softwareよりはるかに壊れやすくなる。OpenAIは、こうしたattackを評価するbenchmarkを構築し、そこからより安全なagent設計のための実務的な指針を導いたと説明した。
OpenAIの設計ガイダンス
- long-term memoryにはtrusted contentだけを保持する。poisoned memoryは一度の攻撃を持続的なfailure modeへ変えてしまうからだ。
- 可能な限りdataとinstructionを分離し、任意のpage textをprivileged command inputとして扱わない。
- least privilegeを適用し、agentが初期状態で読めるもの、書けるもの、実行できるものを最小化する。
- 不審なmulti-step behaviorを止めたり検知したりするmonitoringとintervention layerを追加する。
- message送信、data transfer、account変更のような影響の大きいside effectの前には、明示的なuser confirmationを要求する。
OpenAIは、これらの考え方がすでにChatGPTのdefenseにも反映されており、model training、system instruction、runtime monitor、confirmation gateを組み合わせていると述べた。注目点は、prompt injectionをより賢いmodelが自然に無視してくれる問題として扱っていないことだ。むしろproduct architecture、permissions design、human-in-the-loop reviewが必要なsystems problemとして位置づけている。
より広いagent ecosystemにとっても、このガイダンスは基準を引き上げる。email assistant、coding agent、browser control、enterprise workflow toolを作るteamは、単にmodelの頑健性だけで安全性を語れなくなる。安全なdeploymentは、untrusted contentをどう隔離し、tool accessをどう絞り、人間のcheckpointをどこに入れるかで決まるということだ。
Related Articles
重要なのは、エージェント開発の律速段階がモデル速度ではなく人間のコンテキスト切り替えにあるとOpenAIが明言した点だ。OpenAIによれば、Symphony導入後は一部チームでマージ済みPRが500%増え、開発者が無理なく扱えるCodexセッションはおおむね3〜5本だった。
重要なのは、modelが速くなっても周辺のorchestrationが遅ければ体感は伸びないことだ。OpenAIはWebSocket modeでagent workflowを最大40%短縮し、実効推論速度も毎秒約65 tokensから1,000 tokens近くまで引き上げたとしている。
今回の本質はモデル追加ではなく流通経路の変化だ。OpenAIはGPT-5.5、Codex、Bedrock Managed AgentsをAWSで限定プレビューに載せ、企業が既存の認証・統制・調達の枠内でfrontier AIを使う道を広げた。
Comments (0)
No comments yet. Be the first to comment!