OpenAI、安全alignment設計を公開　chain of command適用で不確実要求の拒否率97%

OpenAIは2026年2月13日、安全alignmentの考え方を体系化した文書を公開した。中心となる主張は、モデルが入力を一律に実行するのではなく、命令の出所と優先度を推論して衝突を解消する必要があるという点だ。

文書で示されたinstruction hierarchyは、system、developer、user、guidelineの順で優先される。会話内で指示が競合した場合、より上位の命令を優先し、下位命令はその範囲内でのみ実行する。OpenAIはこれをchain of commandとして説明している。

特に重要視されるのが不確実性の扱いだ。OpenAI公表値では、通常戦略だと不確実な要求に対して約59%を拒否し、約41%は回答してしまう挙動が観測された。一方、uncertainty-aware挙動と優先度推論を組み合わせると、拒否は約97%に上がり、回答は実質0%まで低下したという。

さらにConflictQA系の評価として、rule-following 95.4%、回答すべきでない条件での正しいabstention 100%という数値が示された。OpenAIは、こうした結果を通じて「正答率」だけでなく「答えるべきでない場面で止まる能力」を主要性能として扱う姿勢を明確にしている。

実装面での示唆は明確だ。企業の運用では、タスク完了率と安全制御率を分離して管理し、拒否精度・過剰拒否率・ポリシー整合性を継続監視する必要がある。とくにprompt injection対策は、入力フィルタだけでなくモデル内部の命令解釈ロジックまで含めて設計すべきだ。

もちろん、公開評価だけで本番リスクを完全には代表できない。多言語環境、業界固有ワークフロー、敵対的プロンプトの長期変化を含む追加検証が欠かせない。それでも今回の文書は、安全alignmentを理念ではなく測定可能な運用設計へ落とし込む具体例として重要な意味を持つ。

OpenAI、安全alignment設計を公開　chain of command適用で不確実要求の拒否率97%

Related Articles

OpenAI Images 2.0 system card、deepfakeリスクを数値化

OpenAI、AI-enabled child exploitation対策の Child Safety Blueprint を公開

OpenAI、独立研究者向け Safety Fellowship を開始

Comments (0)

Leave a Comment

Related Articles

OpenAI Images 2.0 system card、deepfakeリスクを数値化

OpenAI、AI-enabled child exploitation対策の Child Safety Blueprint を公開
AI Apr 13, 2026 1 min read

OpenAI、独立研究者向け Safety Fellowship を開始
AI sources.x Apr 9, 2026 1 min read