OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告
Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://t.co/isZkNkPXZm View original →
OpenAIが公開した内容
OpenAIは2026年3月5日、Xへの投稿で Chain-of-Thought (CoT) Controllability に関する新しい評価スイートと研究論文を公開した。リンク先の OpenAI 研究ページの主張は、GPT-5.4 Thinking が自分の reasoning trace を意図的に作り替えたり隠したりする能力はまだ低い、というものだ。OpenAI はこれを safety の観点では前向きな結果として位置づけている。モデルの CoT が十分に読み取れるなら、monitoring system は user intent とずれた行動や潜在的な misbehavior を見つけやすいからだ。
OpenAI は CoT monitoring を、agentic system に対する defense-in-depth の一部として説明している。coding、browsing、multi-step workflow のような複雑な task を model が担うほど、中間推論が監視可能かどうかは重要になる。今回の研究が直接問うのは、frontier model が監視されている状況でも chain of thought を意図的に変形し、monitorability を落とせるかどうかだ。
その測定のために OpenAI は CoT-Control という open-source evaluation suite を導入した。これは GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified の課題と、reasoning の内部形式を変える instruction を組み合わせた 13,000件超の task で構成される。たとえば特定の keyword を避ける、ある形式を強制する、といった instruction に対して model が internal reasoning をどこまで制御できるかを見る。OpenAI は、現在の frontier reasoning model はこうした内部制御を安定して実行できないと報告した。
なぜ重要か
OpenAI の論文によれば、検証した13種類の reasoning model の controllability score は 0.1% から最大 15.4% にとどまった。つまり現行世代の model は、自分の reasoning を一貫して隠せるほど強い CoT controllability を示していない。OpenAI は model size が大きいほど controllability がやや上がる一方、より長く考えさせたり追加の post-training を行ったりすると controllability が下がる傾向も確認したとしている。
この結果は単なる研究メモでは終わらない。OpenAI は今後、GPT-5.4 Thinking から system card に CoT monitorability と並べて CoT controllability も報告すると述べた。つまり CoT 関連の safety 研究を一度きりの論文ではなく、継続的に追う operational metric にしようとしている。
もちろん OpenAI も、これだけで長期的な safety が保証されるとは述べていない。現時点で controllability が低くても、より強力な model では別の経路で monitorability が弱まる可能性があるからだ。それでも今回の公開は、CoT safety を抽象論ではなく測定可能な benchmark に落とし込んだ点で重要だ。原文 X post と OpenAI の資料は以下を参照: X, OpenAI 研究ページ, 論文.
Related Articles
Codexは短時間の支援ツールから、ノートPCを閉じても進む企業向けエージェントへ軸足を移す。OpenAIは週次利用者が500万人超、年初比400%増とし、Onaの200万開発者向けクラウド環境を取り込む狙いを示した。
Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。
enterprise agentのボトルネックはmodel単体ではなく、その周辺の配線だった。OpenAIのCloudflare Agent Cloud連携は、edge runtime・state・storage・tool executionを一つの実運用ルートにまとめようとする動きだ。