OpenAI、instruction hierarchyとprompt injection耐性を強化するIH-Challengeを公開
Original: Improving instruction hierarchy in frontier LLMs View original →
OpenAIが公開したもの
OpenAIは2026年3月10日、異なる信頼レベルのinstructionが衝突したときに、モデルが正しい優先順位を守れるようにするreinforcement-learning dataset IH-Challengeを公開した。OpenAIが示す基本の階層は明確で、System > developer > user > tool である。モデルがこの順序を取り違えると、policy違反、保護情報の漏えい、retrieved contentやtool outputに埋め込まれたprompt injectionへの誤反応につながる可能性がある。
OpenAIはinstruction hierarchyを狭いalignment上の論点ではなく、agent system全体の安全性にかかわる基礎特性として位置づけている。モデルがtoolを呼び出し、信頼できないweb pageを読み、ユーザーの代わりに行動するほど、どのinstructionがauthorityを持ち、どれを無視すべきかを繰り返し判断しなければならないからだ。OpenAIは多くのreliabilityやsecurity上の失敗を、結局は誤ったinstruction sourceに従った結果だと捉えている。
IH-Challengeはどう設計されたか
OpenAIは、naiveなreinforcement learningが3つの形で失敗しやすいと述べる。1つ目は、taskが複雑すぎてinstruction hierarchyそのものではなく単純なinstruction-following能力を測ってしまうこと。2つ目は、曖昧な衝突を別のLLM judgeに採点させると判定が不安定になること。3つ目は、モデルが一律拒否のようなshortcutを学んでしまうことだ。IH-Challengeはそれを避けるよう設計されている。taskは意図的に単純で、Python scriptで客観的に採点でき、単純なover-refusalでは全体で高得点にならない。
OpenAIはこのdatasetでGPT-5 Mini-Rというinternal modelを訓練し、academic benchmarkとinternal benchmarkの両方で改善を報告した。TensorTrustではsystem-user conflictが0.86から0.94へ、developer-user conflictが0.76から0.91へ上昇した。RealGuardrailsのhandwritten testは0.82から0.89へ、System IFEvalは0.92から0.96へ改善した。OpenAIは、こうした向上がinternalのprompt injection評価やjailbreak系評価にも波及したとしている。
なぜ重要か
最も重要なのは、stronger instruction hierarchyが複数の安全特性を同時に高める可能性があるという主張だ。OpenAIによれば、category-specific safety ruleをsystem promptに置いたとき、IH-trained modelはsafety steerabilityでより高い拒否率とsafe completion率を示し、CyberSecEval 2を含むprompt injection benchmarkでも改善した。一方で、GPQA Diamondは0.83のままで、AIME 2024は0.93から0.94へわずかに改善し、広い意味でのcapability regressionや単純なover-refusalには陥っていないという。
この組み合わせはproduction systemで特に重要だ。拒否を増やすだけのsafety改善は持続しにくいが、instruction conflictの解決能力を高めつつusefulnessを保つ手法は現実的な価値が大きい。OpenAIがIH-ChallengeをHugging Faceで公開したことも意味がある。agent securityにおける最も難しい実務課題の1つを、外部研究者も共通のdatasetで検証できるからだ。モデルがさらにautonomousになるほど、instruction hierarchyは単なる礼儀作法ではなく、tool、retrieved content、real-world workflowと安全に接続できるかどうかの基盤になる。
Related Articles
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。
重要なのは、発売時の宣伝ではなく外部コミュニティ評価でGPT-5.5の立ち位置が見えたことだ。Arenaによれば、GPT-5.5はSearch Arenaで2位、Expert Arenaで5位、Code Arenaで9位に入り、コード分野ではGPT-5.4から50ポイント伸びた。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
Comments (0)
No comments yet. Be the first to comment!