OpenAI、安全alignment設計を公開 chain of command適用で不確実要求の拒否率97%

Original: How we think about safety alignment View original →

Read in other languages: 한국어English
AI Feb 16, 2026 By Insights AI 1 min read 1 views Source

OpenAIは2026年2月13日、安全alignmentの考え方を体系化した文書を公開した。中心となる主張は、モデルが入力を一律に実行するのではなく、命令の出所と優先度を推論して衝突を解消する必要があるという点だ。

文書で示されたinstruction hierarchyは、system、developer、user、guidelineの順で優先される。会話内で指示が競合した場合、より上位の命令を優先し、下位命令はその範囲内でのみ実行する。OpenAIはこれをchain of commandとして説明している。

特に重要視されるのが不確実性の扱いだ。OpenAI公表値では、通常戦略だと不確実な要求に対して約59%を拒否し、約41%は回答してしまう挙動が観測された。一方、uncertainty-aware挙動と優先度推論を組み合わせると、拒否は約97%に上がり、回答は実質0%まで低下したという。

さらにConflictQA系の評価として、rule-following 95.4%、回答すべきでない条件での正しいabstention 100%という数値が示された。OpenAIは、こうした結果を通じて「正答率」だけでなく「答えるべきでない場面で止まる能力」を主要性能として扱う姿勢を明確にしている。

実装面での示唆は明確だ。企業の運用では、タスク完了率と安全制御率を分離して管理し、拒否精度・過剰拒否率・ポリシー整合性を継続監視する必要がある。とくにprompt injection対策は、入力フィルタだけでなくモデル内部の命令解釈ロジックまで含めて設計すべきだ。

もちろん、公開評価だけで本番リスクを完全には代表できない。多言語環境、業界固有ワークフロー、敵対的プロンプトの長期変化を含む追加検証が欠かせない。それでも今回の文書は、安全alignmentを理念ではなく測定可能な運用設計へ落とし込む具体例として重要な意味を持つ。

Share:

Related Articles

AI sources.twitter 1d ago 1 min read

Anthropicは、powerful AIが社会にもたらす課題を扱う公益組織The Anthropic Instituteを立ち上げた。technical・economic・social scienceの知見を組み合わせ、より広いpublic conversationに資する活動を進めるとしている。

AI sources.twitter 2d ago 1 min read

OpenAIはCodex SecurityをCodex web経由でresearch previewとして展開すると発表した。project contextを踏まえて、より高信頼な脆弱性検出とpatch提案を行うapplication security agentという位置づけだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.