OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開

Original: Improving instruction hierarchy in frontier LLMs View original →

Read in other languages: 한국어English
LLM Mar 16, 2026 By Insights AI 1 min read Source

OpenAIが公開したもの

OpenAIは2026年3月10日、異なる信頼レベルのinstructionが衝突したときに、モデルが正しい優先順位を守れるようにするreinforcement-learning dataset IH-Challengeを公開した。OpenAIが示す基本の階層は明確で、System > developer > user > tool である。モデルがこの順序を取り違えると、policy違反、保護情報の漏えい、retrieved contentやtool outputに埋め込まれたprompt injectionへの誤反応につながる可能性がある。

OpenAIはinstruction hierarchyを狭いalignment上の論点ではなく、agent system全体の安全性にかかわる基礎特性として位置づけている。モデルがtoolを呼び出し、信頼できないweb pageを読み、ユーザーの代わりに行動するほど、どのinstructionがauthorityを持ち、どれを無視すべきかを繰り返し判断しなければならないからだ。OpenAIは多くのreliabilityやsecurity上の失敗を、結局は誤ったinstruction sourceに従った結果だと捉えている。

IH-Challengeはどう設計されたか

OpenAIは、naiveなreinforcement learningが3つの形で失敗しやすいと述べる。1つ目は、taskが複雑すぎてinstruction hierarchyそのものではなく単純なinstruction-following能力を測ってしまうこと。2つ目は、曖昧な衝突を別のLLM judgeに採点させると判定が不安定になること。3つ目は、モデルが一律拒否のようなshortcutを学んでしまうことだ。IH-Challengeはそれを避けるよう設計されている。taskは意図的に単純で、Python scriptで客観的に採点でき、単純なover-refusalでは全体で高得点にならない。

OpenAIはこのdatasetでGPT-5 Mini-Rというinternal modelを訓練し、academic benchmarkとinternal benchmarkの両方で改善を報告した。TensorTrustではsystem-user conflictが0.86から0.94へ、developer-user conflictが0.76から0.91へ上昇した。RealGuardrailsのhandwritten testは0.82から0.89へ、System IFEvalは0.92から0.96へ改善した。OpenAIは、こうした向上がinternalのprompt injection評価やjailbreak系評価にも波及したとしている。

なぜ重要か

最も重要なのは、stronger instruction hierarchyが複数の安全特性を同時に高める可能性があるという主張だ。OpenAIによれば、category-specific safety ruleをsystem promptに置いたとき、IH-trained modelはsafety steerabilityでより高い拒否率とsafe completion率を示し、CyberSecEval 2を含むprompt injection benchmarkでも改善した。一方で、GPQA Diamondは0.83のままで、AIME 2024は0.93から0.94へわずかに改善し、広い意味でのcapability regressionや単純なover-refusalには陥っていないという。

この組み合わせはproduction systemで特に重要だ。拒否を増やすだけのsafety改善は持続しにくいが、instruction conflictの解決能力を高めつつusefulnessを保つ手法は現実的な価値が大きい。OpenAIがIH-ChallengeをHugging Faceで公開したことも意味がある。agent securityにおける最も難しい実務課題の1つを、外部研究者も共通のdatasetで検証できるからだ。モデルがさらにautonomousになるほど、instruction hierarchyは単なる礼儀作法ではなく、tool、retrieved content、real-world workflowと安全に接続できるかどうかの基盤になる。

出典: OpenAI research post · paper · Hugging Face dataset

Share: Long

Related Articles

LLM 1d ago 1 min read

OpenAIは2026年3月11日、AI agentが読むemail、web page、calendar inviteのようなuntrusted contentを主要なsecurity boundaryとして扱う新ガイドを公開した。堅牢なagentはdataとinstructionを分離し、least privilegeを徹底し、重要なactionの前にmonitoringとuser confirmationを入れるべきだとしている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.