OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告

OpenAIが公開した内容

OpenAIは2026年3月5日、Xへの投稿で Chain-of-Thought (CoT) Controllability に関する新しい評価スイートと研究論文を公開した。リンク先の OpenAI 研究ページの主張は、GPT-5.4 Thinking が自分の reasoning trace を意図的に作り替えたり隠したりする能力はまだ低い、というものだ。OpenAI はこれを safety の観点では前向きな結果として位置づけている。モデルの CoT が十分に読み取れるなら、monitoring system は user intent とずれた行動や潜在的な misbehavior を見つけやすいからだ。

OpenAI は CoT monitoring を、agentic system に対する defense-in-depth の一部として説明している。coding、browsing、multi-step workflow のような複雑な task を model が担うほど、中間推論が監視可能かどうかは重要になる。今回の研究が直接問うのは、frontier model が監視されている状況でも chain of thought を意図的に変形し、monitorability を落とせるかどうかだ。

その測定のために OpenAI は CoT-Control という open-source evaluation suite を導入した。これは GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified の課題と、reasoning の内部形式を変える instruction を組み合わせた 13,000件超の task で構成される。たとえば特定の keyword を避ける、ある形式を強制する、といった instruction に対して model が internal reasoning をどこまで制御できるかを見る。OpenAI は、現在の frontier reasoning model はこうした内部制御を安定して実行できないと報告した。

なぜ重要か

OpenAI の論文によれば、検証した13種類の reasoning model の controllability score は 0.1% から最大 15.4% にとどまった。つまり現行世代の model は、自分の reasoning を一貫して隠せるほど強い CoT controllability を示していない。OpenAI は model size が大きいほど controllability がやや上がる一方、より長く考えさせたり追加の post-training を行ったりすると controllability が下がる傾向も確認したとしている。

この結果は単なる研究メモでは終わらない。OpenAI は今後、GPT-5.4 Thinking から system card に CoT monitorability と並べて CoT controllability も報告すると述べた。つまり CoT 関連の safety 研究を一度きりの論文ではなく、継続的に追う operational metric にしようとしている。

もちろん OpenAI も、これだけで長期的な safety が保証されるとは述べていない。現時点で controllability が低くても、より強力な model では別の経路で monitorability が弱まる可能性があるからだ。それでも今回の公開は、CoT safety を抽象論ではなく測定可能な benchmark に落とし込んだ点で重要だ。原文 X post と OpenAI の資料は以下を参照: X, OpenAI 研究ページ, 論文.

OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告

OpenAIが公開した内容

なぜ重要か

Related Articles

OpenAIのOna買収でCodexに長時間エージェント向け安全クラウド実行基盤を追加

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開

Cloudflare、GPT-5.4とCodexを本番向けagent stackに直結