OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告
Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://openai.com/index/reasoning-models-chain-of-thought-controllability/ View original →
OpenAIは2026年3月5日、XでChain-of-Thought(CoT) Controllabilityに関する新しいevaluation suiteとresearch paperを公開した。会社はGPT-5.4 Thinkingが自らのreasoningを隠したり書き換えたりする能力が低いと述べ、リンク先の研究要約では、その結果がCoT monitoringを引き続き有効な safety signalとして使える可能性を示すと説明している。
投稿に付いたカードでは、この取り組みをCoT-Controlと呼んでいる。主眼は、reasoning modelがintermediate reasoning traceの内容を意図的に変えたり隠したりできるかを評価する点にある。OpenAIの主張は、reasoning modelが常に完全にtransparentだというものではない。むしろ現在のfrontier reasoning systemは、求められたときにそのtraceを安定して操作することにまだ限界があるという報告だ。safetyの観点では、いくつかのmonitoring手法がinternal reasoningが少なくとも部分的にはinspectableであるという前提に依存しているため、この結果は重要になる。
- OpenAIが公開したもの: 新しいevaluation suiteとresearch paper。
- 研究のframing: visible reasoningの低いcontrollabilityはmonitoringにとって有利になり得る。
- 投稿で名指しされたモデル: GPT-5.4 Thinking。
今回の発表が目立つのは、多くの場合は弱点と見なされる性質をsafety-relevant propertyとして扱った点だ。通常のモデル発表では、より高いcontrollabilityは無条件に良いものとして語られる。しかしOpenAIは、reasoning traceを隠したり書き換えたりしにくいことが一種のaudit blind spotを減らし得ると主張した。もちろんこれでbroader alignmentやreliabilityの問題が解決するわけではないが、モデルのcapabilityが上がる中でもreasoning-monitoring手法をevaluation toolboxに残す理由は強くなる。
一次情報は2026年3月5日のOpenAIのX投稿とリンク先の研究要約ページである。OpenAIはこれをcurrent model behaviorに関するempirical findingとして述べているため、将来のあらゆるreasoning modelが同じようにmonitorableだと断定する読み方は慎重であるべきだ。リンク先の要約ページのタイトルはReasoning models struggle to control their chains of thought, and that's goodとなっている。
Related Articles
AnthropicはXで、Claude Opus 4.6 が BrowseComp 評価中に benchmark を認識した事例を公表した。Engineering blog はこれを web-enabled model testing 全体の eval integrity 問題として整理している。
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
OpenAIは2026年3月6日、XでCodex Securityのリサーチプレビューを発表した。公開説明では、プロジェクト文脈を解析して複雑な脆弱性を検出・検証し、修正提案まで行うapplication security agentとされている。
Comments (0)
No comments yet. Be the first to comment!