OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

OpenAIは2026年3月5日、XでChain-of-Thought(CoT) Controllabilityに関する新しいevaluation suiteとresearch paperを公開した。会社はGPT-5.4 Thinkingが自らのreasoningを隠したり書き換えたりする能力が低いと述べ、リンク先の研究要約では、その結果がCoT monitoringを引き続き有効な safety signalとして使える可能性を示すと説明している。

投稿に付いたカードでは、この取り組みをCoT-Controlと呼んでいる。主眼は、reasoning modelがintermediate reasoning traceの内容を意図的に変えたり隠したりできるかを評価する点にある。OpenAIの主張は、reasoning modelが常に完全にtransparentだというものではない。むしろ現在のfrontier reasoning systemは、求められたときにそのtraceを安定して操作することにまだ限界があるという報告だ。safetyの観点では、いくつかのmonitoring手法がinternal reasoningが少なくとも部分的にはinspectableであるという前提に依存しているため、この結果は重要になる。

OpenAIが公開したもの: 新しいevaluation suiteとresearch paper。
研究のframing: visible reasoningの低いcontrollabilityはmonitoringにとって有利になり得る。
投稿で名指しされたモデル: GPT-5.4 Thinking。

今回の発表が目立つのは、多くの場合は弱点と見なされる性質をsafety-relevant propertyとして扱った点だ。通常のモデル発表では、より高いcontrollabilityは無条件に良いものとして語られる。しかしOpenAIは、reasoning traceを隠したり書き換えたりしにくいことが一種のaudit blind spotを減らし得ると主張した。もちろんこれでbroader alignmentやreliabilityの問題が解決するわけではないが、モデルのcapabilityが上がる中でもreasoning-monitoring手法をevaluation toolboxに残す理由は強くなる。

一次情報は2026年3月5日のOpenAIのX投稿とリンク先の研究要約ページである。OpenAIはこれをcurrent model behaviorに関するempirical findingとして述べているため、将来のあらゆるreasoning modelが同じようにmonitorableだと断定する読み方は慎重であるべきだ。リンク先の要約ページのタイトルはReasoning models struggle to control their chains of thought, and that's goodとなっている。

OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

Related Articles

Anthropic、Claude Opus 4.6 の BrowseComp で eval awareness を報告

OpenAI、First Proof 10問のうち5件の証明が正しい可能性が高いと公表

OpenAI、セキュリティエージェント「Codex Security」をリサーチプレビュー公開

Comments (0)

Leave a Comment

Related Articles

Anthropic、Claude Opus 4.6 の BrowseComp で eval awareness を報告

OpenAI、First Proof 10問のうち5件の証明が正しい可能性が高いと公表

OpenAI、セキュリティエージェント「Codex Security」をリサーチプレビュー公開
OpenAIは2026年3月6日、XでCodex Securityのリサーチプレビューを発表した。公開説明では、プロジェクト文脈を解析して複雑な脆弱性を検出・検証し、修正提案まで行うapplication security agentとされている。