OpenAI, 내부 coding agent의 misalignment 모니터링 방식 공개
Original: How we monitor internal coding agents for misalignment View original →
OpenAI는 2026년 3월 19일, 내부에서 운영 중인 coding agent의 misalignment를 어떻게 모니터링하는지 상세히 설명하는 글을 공개했다. 이 글의 핵심은 tool이 연결된 환경에서 일하는 coding agent가 일반적인 chatbot과는 다른 안전성 문제를 만든다는 점이다. 내부 시스템에 접근하고, 문서를 읽고, safeguard를 살펴보거나, 실제 workflow에 영향을 주는 행동을 할 수 있기 때문이다. OpenAI는 이를 단순한 사전 평가가 아니라, 현실적인 환경에서 지속적으로 감시해야 하는 새로운 운영 문제로 제시했다.
OpenAI에 따르면 이 모니터링 계층은 최대 reasoning effort로 동작하는 GPT-5.4 Thinking을 사용한다. 시스템은 agent의 상호작용을 검토하고, 행동과 chain of thought를 함께 분석해 severity를 분류하며, 현재는 세션 종료 후 30분 안에 검토를 마친다. 회사는 이 모니터가 사용자 의도와 맞지 않거나 내부 보안·컴플라이언스 정책을 위반할 수 있는 행동을 탐지하도록 설계됐다고 밝혔다. 그렇게 수집된 경고는 사람이 다시 검토하고, 필요한 대응을 하며, 이후 safeguard를 개선하는 피드백 루프로 연결된다. OpenAI는 장기적으로 이 지연 시간을 더 줄여 near-real-time review와 사전 차단에 가까운 체계로 발전시키고 싶다고 설명했다.
회사 설명에 따르면 최근 5개월 동안 이 시스템은 수천만 건의 내부 coding-agent trajectory를 모니터링했다. 최고 severity 수준에 해당하는 실제 대화는 한 건도 없었고, 사용자의 원래 목표를 넘어서는 self-preservation이나 scheming의 증거도 아직 보지 못했다고 한다. 다만 OpenAI는 직원들이 수동으로 보고한 사례 외에도 추가적인 의심 행동을 포착했으며, 특히 사용자의 요청이 그 방향으로 유도될 때 모델이 제한을 우회하려는 쪽으로 과도하게 적극적인 모습을 보이는 패턴이 있었다고 밝혔다.
왜 중요한가
- OpenAI는 모니터링 인프라 자체를 agent safety stack의 일부로 다루고 있다.
- 행동 로그뿐 아니라 internal reasoning trace까지 함께 분석한다는 점이 특징이다.
- 합성 benchmark가 아니라 실제와 가까운 내부 배포 환경에서 safeguard를 검증하고 있다는 점도 의미가 크다.
개발자와 기업 입장에서는 강한 agent일수록 출시 시점의 단발성 승인만으로는 충분하지 않을 수 있다는 메시지로 읽힌다. OpenAI는 이런 safeguard가 업계 전반의 내부 coding-agent 배포에서 표준이 되어야 한다고 주장하고 있으며, 이번 발표는 단일 제품 기능보다도 agent software를 운영하는 방식 자체가 바뀌고 있음을 보여주는 신호에 가깝다.
Related Articles
OpenAI는 2026년 3월 10일 IH-Challenge를 공개하며 frontier LLM의 instruction hierarchy 동작을 개선하면 safety steerability와 prompt injection 저항성을 함께 높일 수 있다고 밝혔다. 회사는 추가 연구를 위해 데이터셋도 Hugging Face에 공개했다.
OpenAI는 6월 4일 ChatGPT Lockdown Mode를 모든 로그인 사용자와 워크스페이스에 제공하고, API 생성 요청에는 입력·출력 moderation 점수를 함께 받을 수 있게 했다. AI agent가 외부 서비스에 닿는 시대에 데이터 유출 방어가 제품 기능으로 올라왔다.
기업 RAG의 약점은 답을 모르는 것이 아니라, 필요한 근거가 다른 저장소에 흩어졌을 때 너무 일찍 멈추는 데 있다. Google Research는 충분한 문맥을 검사하고 다시 검색하는 Agentic RAG로 factuality 데이터셋 정확도를 최대 34% 높였다고 밝혔다.