OpenAI, AI agent를 prompt injection에 강하게 만드는 설계 원칙 공개

OpenAI는 2026년 3월 11일 공개한 연구 글에서, AI system이 browse, message reading, tool execution 같은 능력을 갖춘 agent가 되는 순간 prompt injection은 단순한 prompt-engineering 문제가 아니라 핵심 security problem이 된다고 정리했다. 회사는 공격을 이메일, 웹페이지, 캘린더 초대와 같은 untrusted content 안에 숨겨진 악성 instruction으로 정의했다. agent가 이런 내용을 읽을 때, 숨겨진 instruction이 개발자가 의도한 행동을 덮어쓰고 시스템을 원치 않는 action으로 유도할 수 있다는 것이다.

이 문제가 어려운 이유는 구조적이다. Large language model은 어디에 있든 instruction을 따르도록 학습되지만, agentic product는 trusted instruction과 untrusted user data를 같은 workflow 안에서 함께 처리해야 한다. 그 결과 data와 control의 경계가 전통적 software보다 훨씬 취약해진다. OpenAI는 이런 공격을 평가하기 위한 benchmark를 구축했고, 이를 바탕으로 더 안전한 agent를 만들기 위한 실무적 설계 원칙을 제시했다고 밝혔다.

OpenAI가 제시한 설계 원칙

long-term memory에는 trusted content만 저장해야 한다. 오염된 memory는 한 번의 공격을 지속적인 failure mode로 바꿀 수 있기 때문이다.
가능한 한 data와 instruction을 분리해야 한다. 임의의 page text가 privileged command input처럼 취급되면 안 된다.
least privilege를 적용해 agent가 기본적으로 읽고 쓰고 실행할 수 있는 범위를 좁혀야 한다.
multi-step behavior를 감시하고 중단할 수 있는 monitoring과 intervention layer를 둬야 한다.
message 전송, data 이전, account 변경처럼 영향이 큰 side effect 전에는 명시적 user confirmation이 필요하다.

OpenAI는 이런 접근이 이미 ChatGPT의 defense에도 반영되고 있다고 설명했다. model training, system instruction, runtime monitor, confirmation gate를 함께 사용한다는 것이다. 이는 prompt injection을 더 좋은 model이 자동으로 무력화할 문제로 보기보다, product architecture와 permissions design, human-in-the-loop review가 함께 풀어야 할 systems problem으로 본다는 뜻이다.

더 넓은 agent ecosystem에도 시사점이 크다. email assistant, coding agent, browser control, enterprise workflow tool을 만드는 팀은 이제 단순히 모델이 instruction에 잘 저항하는지만 볼 수 없다. 안전한 배포는 untrusted content를 어떻게 격리하고, tool access를 어떻게 제한하며, 어디에 human checkpoint를 둘지에 달려 있다는 점을 OpenAI가 분명히 한 셈이다.

OpenAI, AI agent를 prompt injection에 강하게 만드는 설계 원칙 공개

OpenAI가 제시한 설계 원칙

Related Articles

OpenAI, Ona 인수로 Codex에 노트북 밖 장시간 클라우드 실행 기반을 더하는 이유

OpenAI GPT-5.3-Codex 출시 — 자기 자신을 디버깅한 25% 더 빠른 에이전틱 코딩 모델

ChatGPT Lockdown Mode 전면 적용… prompt injection 방어가 기본 논점으로