OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개
Original: Improving instruction hierarchy in frontier LLMs View original →
OpenAI가 공개한 것
OpenAI는 2026년 3월 10일, 서로 다른 신뢰 수준의 instruction이 충돌할 때 모델이 우선순위를 더 정확히 지키도록 설계한 reinforcement-learning 데이터셋 IH-Challenge를 발표했다. OpenAI가 제시하는 기본 계층은 분명하다. System > developer > user > tool 이다. 모델이 이 순서를 잘못 따르면 정책 위반, 보호 정보 노출, retrieved content나 tool output 안에 숨겨진 prompt injection 같은 실패로 이어질 수 있다.
OpenAI는 instruction hierarchy를 좁은 alignment 세부 항목이 아니라 agent system 전반의 안전 속성으로 본다. 모델이 tool을 호출하고, 신뢰할 수 없는 web page를 읽고, 사용자를 대신해 행동할수록 어떤 instruction이 authoritative하고 무엇을 무시해야 하는지 계속 판단해야 하기 때문이다. 회사는 많은 reliability와 security 실패가 결국 잘못된 instruction source를 따른 결과라고 설명한다.
IH-Challenge를 어떻게 만들었나
OpenAI는 naive reinforcement learning이 세 가지 방식으로 어긋날 수 있다고 본다. 첫째, 과제가 너무 복잡하면 hierarchy 자체보다 instruction-following 난도가 개입될 수 있다. 둘째, 모호한 충돌을 다른 LLM judge에게 맡기면 판정이 흔들릴 수 있다. 셋째, 모델은 blanket refusal 같은 shortcut으로 높은 reward를 노릴 수 있다. IH-Challenge는 이 문제를 피하도록 설계됐다. 과제는 의도적으로 단순하고, Python script로 객관 채점이 가능하며, 단순한 over-refusal이 전반적으로 높은 점수를 받지 못하게 구성돼 있다.
OpenAI는 이 데이터셋으로 GPT-5 Mini-R이라는 internal model을 훈련했고, academic benchmark와 internal benchmark 모두에서 성능 향상을 보고했다. TensorTrust에서는 system-user conflict가 0.86에서 0.94로, developer-user conflict가 0.76에서 0.91로 개선됐다. RealGuardrails handwritten test는 0.82에서 0.89로, System IFEval은 0.92에서 0.96으로 올라갔다. OpenAI는 이 개선이 internal prompt injection과 jailbreak류 평가에도 이어졌다고 말한다.
왜 중요한가
가장 중요한 주장은 stronger instruction hierarchy가 여러 안전 속성을 동시에 개선할 수 있다는 점이다. OpenAI는 category-specific safety rule을 system prompt에 넣었을 때, IH-trained model이 safety steerability에서 더 나은 거부와 safe completion 비율을 보였고, CyberSecEval 2를 포함한 prompt injection benchmark에서도 더 강해졌다고 설명한다. 동시에 GPQA Diamond는 0.83으로 유지됐고, AIME 2024는 0.93에서 0.94로 소폭 개선돼, broad over-refusal이나 뚜렷한 capability regression으로 이어지지 않았다고 밝혔다.
이 조합은 production 시스템에서 특히 중요하다. 거부만 늘리는 safety 개선은 금방 한계에 부딪히지만, 충돌 해결 능력을 높이면서 usefulness를 유지하는 방식은 더 오래 간다. OpenAI가 IH-Challenge를 Hugging Face에 공개한 것도 의미가 있다. agent security에서 가장 어려운 실제 문제 중 하나를 외부 연구자도 같은 데이터셋으로 다룰 수 있게 했기 때문이다. 모델이 더 autonomous해질수록 instruction hierarchy는 예의의 문제가 아니라, tool, retrieved content, real-world workflow와 안전하게 상호작용할 수 있는지의 문제에 가까워진다.
Related Articles
OpenAI는 2026년 3월 19일, GPT-5.4 Thinking 기반 시스템으로 내부 coding agent의 행동과 chain of thought를 30분 안에 검토하는 모니터링 체계를 공개했다. 회사는 이 체계가 이미 수천만 건의 trajectory를 처리했으며, 사용자 의도나 내부 정책에서 벗어나는 행동을 포착하기 위한 것이라고 설명했다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.