OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개
Original: Improving instruction hierarchy in frontier LLMs View original →
OpenAI가 공개한 것
OpenAI는 2026년 3월 10일, 서로 다른 신뢰 수준의 instruction이 충돌할 때 모델이 우선순위를 더 정확히 지키도록 설계한 reinforcement-learning 데이터셋 IH-Challenge를 발표했다. OpenAI가 제시하는 기본 계층은 분명하다. System > developer > user > tool 이다. 모델이 이 순서를 잘못 따르면 정책 위반, 보호 정보 노출, retrieved content나 tool output 안에 숨겨진 prompt injection 같은 실패로 이어질 수 있다.
OpenAI는 instruction hierarchy를 좁은 alignment 세부 항목이 아니라 agent system 전반의 안전 속성으로 본다. 모델이 tool을 호출하고, 신뢰할 수 없는 web page를 읽고, 사용자를 대신해 행동할수록 어떤 instruction이 authoritative하고 무엇을 무시해야 하는지 계속 판단해야 하기 때문이다. 회사는 많은 reliability와 security 실패가 결국 잘못된 instruction source를 따른 결과라고 설명한다.
IH-Challenge를 어떻게 만들었나
OpenAI는 naive reinforcement learning이 세 가지 방식으로 어긋날 수 있다고 본다. 첫째, 과제가 너무 복잡하면 hierarchy 자체보다 instruction-following 난도가 개입될 수 있다. 둘째, 모호한 충돌을 다른 LLM judge에게 맡기면 판정이 흔들릴 수 있다. 셋째, 모델은 blanket refusal 같은 shortcut으로 높은 reward를 노릴 수 있다. IH-Challenge는 이 문제를 피하도록 설계됐다. 과제는 의도적으로 단순하고, Python script로 객관 채점이 가능하며, 단순한 over-refusal이 전반적으로 높은 점수를 받지 못하게 구성돼 있다.
OpenAI는 이 데이터셋으로 GPT-5 Mini-R이라는 internal model을 훈련했고, academic benchmark와 internal benchmark 모두에서 성능 향상을 보고했다. TensorTrust에서는 system-user conflict가 0.86에서 0.94로, developer-user conflict가 0.76에서 0.91로 개선됐다. RealGuardrails handwritten test는 0.82에서 0.89로, System IFEval은 0.92에서 0.96으로 올라갔다. OpenAI는 이 개선이 internal prompt injection과 jailbreak류 평가에도 이어졌다고 말한다.
왜 중요한가
가장 중요한 주장은 stronger instruction hierarchy가 여러 안전 속성을 동시에 개선할 수 있다는 점이다. OpenAI는 category-specific safety rule을 system prompt에 넣었을 때, IH-trained model이 safety steerability에서 더 나은 거부와 safe completion 비율을 보였고, CyberSecEval 2를 포함한 prompt injection benchmark에서도 더 강해졌다고 설명한다. 동시에 GPQA Diamond는 0.83으로 유지됐고, AIME 2024는 0.93에서 0.94로 소폭 개선돼, broad over-refusal이나 뚜렷한 capability regression으로 이어지지 않았다고 밝혔다.
이 조합은 production 시스템에서 특히 중요하다. 거부만 늘리는 safety 개선은 금방 한계에 부딪히지만, 충돌 해결 능력을 높이면서 usefulness를 유지하는 방식은 더 오래 간다. OpenAI가 IH-Challenge를 Hugging Face에 공개한 것도 의미가 있다. agent security에서 가장 어려운 실제 문제 중 하나를 외부 연구자도 같은 데이터셋으로 다룰 수 있게 했기 때문이다. 모델이 더 autonomous해질수록 instruction hierarchy는 예의의 문제가 아니라, tool, retrieved content, real-world workflow와 안전하게 상호작용할 수 있는지의 문제에 가까워진다.
Related Articles
OpenAI는 2026년 3월 11일 AI agent가 읽는 이메일, 웹페이지, 캘린더 초대 같은 untrusted content가 핵심 보안 경계라고 설명하는 새 가이드를 공개했다. 회사는 안전한 agent가 data와 instruction을 분리하고, least privilege를 적용하며, 중요한 action 전에는 monitoring과 user confirmation을 넣어야 한다고 밝혔다.
OpenAI는 2026년 3월 5일 X에서 GPT-5.4 Thinking의 Chain-of-Thought controllability가 낮다고 밝혔다. 이는 현재 기준으로 CoT monitoring이 여전히 유효한 안전 장치일 수 있다는 메시지와 함께 공개됐다.
OpenAI는 Chain-of-Thought controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 reasoning을 숨기는 능력이 낮아 CoT monitoring이 여전히 유효한 safety signal이 될 수 있다고 설명했다.
Comments (0)
No comments yet. Be the first to comment!