OpenAI、GPT-5.4 Thinking の CoT を隠す能力はまだ低いと報告
Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://t.co/isZkNkPXZm View original →
OpenAIが公開した内容
OpenAIは2026年3月5日、Xへの投稿で Chain-of-Thought (CoT) Controllability に関する新しい評価スイートと研究論文を公開した。リンク先の OpenAI 研究ページの主張は、GPT-5.4 Thinking が自分の reasoning trace を意図的に作り替えたり隠したりする能力はまだ低い、というものだ。OpenAI はこれを safety の観点では前向きな結果として位置づけている。モデルの CoT が十分に読み取れるなら、monitoring system は user intent とずれた行動や潜在的な misbehavior を見つけやすいからだ。
OpenAI は CoT monitoring を、agentic system に対する defense-in-depth の一部として説明している。coding、browsing、multi-step workflow のような複雑な task を model が担うほど、中間推論が監視可能かどうかは重要になる。今回の研究が直接問うのは、frontier model が監視されている状況でも chain of thought を意図的に変形し、monitorability を落とせるかどうかだ。
その測定のために OpenAI は CoT-Control という open-source evaluation suite を導入した。これは GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified の課題と、reasoning の内部形式を変える instruction を組み合わせた 13,000件超の task で構成される。たとえば特定の keyword を避ける、ある形式を強制する、といった instruction に対して model が internal reasoning をどこまで制御できるかを見る。OpenAI は、現在の frontier reasoning model はこうした内部制御を安定して実行できないと報告した。
なぜ重要か
OpenAI の論文によれば、検証した13種類の reasoning model の controllability score は 0.1% から最大 15.4% にとどまった。つまり現行世代の model は、自分の reasoning を一貫して隠せるほど強い CoT controllability を示していない。OpenAI は model size が大きいほど controllability がやや上がる一方、より長く考えさせたり追加の post-training を行ったりすると controllability が下がる傾向も確認したとしている。
この結果は単なる研究メモでは終わらない。OpenAI は今後、GPT-5.4 Thinking から system card に CoT monitorability と並べて CoT controllability も報告すると述べた。つまり CoT 関連の safety 研究を一度きりの論文ではなく、継続的に追う operational metric にしようとしている。
もちろん OpenAI も、これだけで長期的な safety が保証されるとは述べていない。現時点で controllability が低くても、より強力な model では別の経路で monitorability が弱まる可能性があるからだ。それでも今回の公開は、CoT safety を抽象論ではなく測定可能な benchmark に落とし込んだ点で重要だ。原文 X post と OpenAI の資料は以下を参照: X, OpenAI 研究ページ, 論文.
Related Articles
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
OpenAIは2026年3月5日、GPT-5.4をChatGPT、API、Codexで順次提供すると発表した。GPT-5.3-Codexのcoding能力を本流のreasoning modelに統合し、native computer useとCodexでのexperimental 1M context supportを打ち出している。
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
Comments (0)
No comments yet. Be the first to comment!