OpenAI、安全alignment設計を公開 chain of command適用で不確実要求の拒否率97%
Original: How we think about safety alignment View original →
OpenAIは2026年2月13日、安全alignmentの考え方を体系化した文書を公開した。中心となる主張は、モデルが入力を一律に実行するのではなく、命令の出所と優先度を推論して衝突を解消する必要があるという点だ。
文書で示されたinstruction hierarchyは、system、developer、user、guidelineの順で優先される。会話内で指示が競合した場合、より上位の命令を優先し、下位命令はその範囲内でのみ実行する。OpenAIはこれをchain of commandとして説明している。
特に重要視されるのが不確実性の扱いだ。OpenAI公表値では、通常戦略だと不確実な要求に対して約59%を拒否し、約41%は回答してしまう挙動が観測された。一方、uncertainty-aware挙動と優先度推論を組み合わせると、拒否は約97%に上がり、回答は実質0%まで低下したという。
さらにConflictQA系の評価として、rule-following 95.4%、回答すべきでない条件での正しいabstention 100%という数値が示された。OpenAIは、こうした結果を通じて「正答率」だけでなく「答えるべきでない場面で止まる能力」を主要性能として扱う姿勢を明確にしている。
実装面での示唆は明確だ。企業の運用では、タスク完了率と安全制御率を分離して管理し、拒否精度・過剰拒否率・ポリシー整合性を継続監視する必要がある。とくにprompt injection対策は、入力フィルタだけでなくモデル内部の命令解釈ロジックまで含めて設計すべきだ。
もちろん、公開評価だけで本番リスクを完全には代表できない。多言語環境、業界固有ワークフロー、敵対的プロンプトの長期変化を含む追加検証が欠かせない。それでも今回の文書は、安全alignmentを理念ではなく測定可能な運用設計へ落とし込む具体例として重要な意味を持つ。
Related Articles
OpenAIは独立したAIアラインメント研究を支援するため、750万ドルの拠出を発表した。大学・非営利・独立研究組織に対し、資金と上限なし研究クレジットを提供し、安全性評価の実証研究を後押しする。
OpenAIは3月9日にXで、AI security platform の Promptfoo を買収する計画を明らかにした。Promptfoo は open source を維持し、今回の取引は OpenAI Frontier の agentic testing・evaluation stack を強化する位置づけだ。
OpenAIとAmazonはFebruary 27, 2026、multi-year strategic partnershipを発表した。Amazonは総額$50 billionを投資し、両社はAmazon Bedrock向けstateful runtime、Frontier配信、約2 gigawattsのTrainium capacity拡張を進める。
Comments (0)
No comments yet. Be the first to comment!