OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開
Original: Improving instruction hierarchy in frontier LLMs View original →
OpenAIが公開したもの
OpenAIは2026年3月10日、異なる信頼レベルのinstructionが衝突したときに、モデルが正しい優先順位を守れるようにするreinforcement-learning dataset IH-Challengeを公開した。OpenAIが示す基本の階層は明確で、System > developer > user > tool である。モデルがこの順序を取り違えると、policy違反、保護情報の漏えい、retrieved contentやtool outputに埋め込まれたprompt injectionへの誤反応につながる可能性がある。
OpenAIはinstruction hierarchyを狭いalignment上の論点ではなく、agent system全体の安全性にかかわる基礎特性として位置づけている。モデルがtoolを呼び出し、信頼できないweb pageを読み、ユーザーの代わりに行動するほど、どのinstructionがauthorityを持ち、どれを無視すべきかを繰り返し判断しなければならないからだ。OpenAIは多くのreliabilityやsecurity上の失敗を、結局は誤ったinstruction sourceに従った結果だと捉えている。
IH-Challengeはどう設計されたか
OpenAIは、naiveなreinforcement learningが3つの形で失敗しやすいと述べる。1つ目は、taskが複雑すぎてinstruction hierarchyそのものではなく単純なinstruction-following能力を測ってしまうこと。2つ目は、曖昧な衝突を別のLLM judgeに採点させると判定が不安定になること。3つ目は、モデルが一律拒否のようなshortcutを学んでしまうことだ。IH-Challengeはそれを避けるよう設計されている。taskは意図的に単純で、Python scriptで客観的に採点でき、単純なover-refusalでは全体で高得点にならない。
OpenAIはこのdatasetでGPT-5 Mini-Rというinternal modelを訓練し、academic benchmarkとinternal benchmarkの両方で改善を報告した。TensorTrustではsystem-user conflictが0.86から0.94へ、developer-user conflictが0.76から0.91へ上昇した。RealGuardrailsのhandwritten testは0.82から0.89へ、System IFEvalは0.92から0.96へ改善した。OpenAIは、こうした向上がinternalのprompt injection評価やjailbreak系評価にも波及したとしている。
なぜ重要か
最も重要なのは、stronger instruction hierarchyが複数の安全特性を同時に高める可能性があるという主張だ。OpenAIによれば、category-specific safety ruleをsystem promptに置いたとき、IH-trained modelはsafety steerabilityでより高い拒否率とsafe completion率を示し、CyberSecEval 2を含むprompt injection benchmarkでも改善した。一方で、GPQA Diamondは0.83のままで、AIME 2024は0.93から0.94へわずかに改善し、広い意味でのcapability regressionや単純なover-refusalには陥っていないという。
この組み合わせはproduction systemで特に重要だ。拒否を増やすだけのsafety改善は持続しにくいが、instruction conflictの解決能力を高めつつusefulnessを保つ手法は現実的な価値が大きい。OpenAIがIH-ChallengeをHugging Faceで公開したことも意味がある。agent securityにおける最も難しい実務課題の1つを、外部研究者も共通のdatasetで検証できるからだ。モデルがさらにautonomousになるほど、instruction hierarchyは単なる礼儀作法ではなく、tool、retrieved content、real-world workflowと安全に接続できるかどうかの基盤になる。
Related Articles
OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。
OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
Comments (0)
No comments yet. Be the first to comment!