OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개

OpenAI가 공개한 것

OpenAI는 2026년 3월 10일, 서로 다른 신뢰 수준의 instruction이 충돌할 때 모델이 우선순위를 더 정확히 지키도록 설계한 reinforcement-learning 데이터셋 IH-Challenge를 발표했다. OpenAI가 제시하는 기본 계층은 분명하다. System > developer > user > tool 이다. 모델이 이 순서를 잘못 따르면 정책 위반, 보호 정보 노출, retrieved content나 tool output 안에 숨겨진 prompt injection 같은 실패로 이어질 수 있다.

OpenAI는 instruction hierarchy를 좁은 alignment 세부 항목이 아니라 agent system 전반의 안전 속성으로 본다. 모델이 tool을 호출하고, 신뢰할 수 없는 web page를 읽고, 사용자를 대신해 행동할수록 어떤 instruction이 authoritative하고 무엇을 무시해야 하는지 계속 판단해야 하기 때문이다. 회사는 많은 reliability와 security 실패가 결국 잘못된 instruction source를 따른 결과라고 설명한다.

IH-Challenge를 어떻게 만들었나

OpenAI는 naive reinforcement learning이 세 가지 방식으로 어긋날 수 있다고 본다. 첫째, 과제가 너무 복잡하면 hierarchy 자체보다 instruction-following 난도가 개입될 수 있다. 둘째, 모호한 충돌을 다른 LLM judge에게 맡기면 판정이 흔들릴 수 있다. 셋째, 모델은 blanket refusal 같은 shortcut으로 높은 reward를 노릴 수 있다. IH-Challenge는 이 문제를 피하도록 설계됐다. 과제는 의도적으로 단순하고, Python script로 객관 채점이 가능하며, 단순한 over-refusal이 전반적으로 높은 점수를 받지 못하게 구성돼 있다.

OpenAI는 이 데이터셋으로 GPT-5 Mini-R이라는 internal model을 훈련했고, academic benchmark와 internal benchmark 모두에서 성능 향상을 보고했다. TensorTrust에서는 system-user conflict가 0.86에서 0.94로, developer-user conflict가 0.76에서 0.91로 개선됐다. RealGuardrails handwritten test는 0.82에서 0.89로, System IFEval은 0.92에서 0.96으로 올라갔다. OpenAI는 이 개선이 internal prompt injection과 jailbreak류 평가에도 이어졌다고 말한다.

왜 중요한가

가장 중요한 주장은 stronger instruction hierarchy가 여러 안전 속성을 동시에 개선할 수 있다는 점이다. OpenAI는 category-specific safety rule을 system prompt에 넣었을 때, IH-trained model이 safety steerability에서 더 나은 거부와 safe completion 비율을 보였고, CyberSecEval 2를 포함한 prompt injection benchmark에서도 더 강해졌다고 설명한다. 동시에 GPQA Diamond는 0.83으로 유지됐고, AIME 2024는 0.93에서 0.94로 소폭 개선돼, broad over-refusal이나 뚜렷한 capability regression으로 이어지지 않았다고 밝혔다.

이 조합은 production 시스템에서 특히 중요하다. 거부만 늘리는 safety 개선은 금방 한계에 부딪히지만, 충돌 해결 능력을 높이면서 usefulness를 유지하는 방식은 더 오래 간다. OpenAI가 IH-Challenge를 Hugging Face에 공개한 것도 의미가 있다. agent security에서 가장 어려운 실제 문제 중 하나를 외부 연구자도 같은 데이터셋으로 다룰 수 있게 했기 때문이다. 모델이 더 autonomous해질수록 instruction hierarchy는 예의의 문제가 아니라, tool, retrieved content, real-world workflow와 안전하게 상호작용할 수 있는지의 문제에 가까워진다.

출처: OpenAI research post · paper · Hugging Face dataset

OpenAI, instruction hierarchy와 prompt injection 저항성을 강화하는 IH-Challenge 공개

OpenAI가 공개한 것

IH-Challenge를 어떻게 만들었나

왜 중요한가

Related Articles

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향

Anthropic IA 연구, LoRA 하나로 백도어·숨은 misalignment 신호까지 끌어올려

Comments (0)

Leave a Comment

Related Articles

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값
왜 중요한가: 코딩 모델 경쟁에서 공용 벤치마크만으로는 실제 체감 차이를 읽기 어려워졌기 때문이다. Cursor는 GPT-5.5가 자체 평가인 CursorBench에서 72.8%로 가장 높았고, 5월 2일까지 가격도 50% 낮춘다고 적었다.

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.

Anthropic IA 연구, LoRA 하나로 백도어·숨은 misalignment 신호까지 끌어올려