OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://openai.com/index/reasoning-models-chain-of-thought-controllability/ View original →

Read in other languages: 한국어English
LLM Mar 12, 2026 By Insights AI 1 min read Source

OpenAIは2026年3月5日、XでChain-of-Thought(CoT) Controllabilityに関する新しいevaluation suiteとresearch paperを公開した。会社はGPT-5.4 Thinkingが自らのreasoningを隠したり書き換えたりする能力が低いと述べ、リンク先の研究要約では、その結果がCoT monitoringを引き続き有効な safety signalとして使える可能性を示すと説明している。

投稿に付いたカードでは、この取り組みをCoT-Controlと呼んでいる。主眼は、reasoning modelがintermediate reasoning traceの内容を意図的に変えたり隠したりできるかを評価する点にある。OpenAIの主張は、reasoning modelが常に完全にtransparentだというものではない。むしろ現在のfrontier reasoning systemは、求められたときにそのtraceを安定して操作することにまだ限界があるという報告だ。safetyの観点では、いくつかのmonitoring手法がinternal reasoningが少なくとも部分的にはinspectableであるという前提に依存しているため、この結果は重要になる。

  • OpenAIが公開したもの: 新しいevaluation suiteとresearch paper。
  • 研究のframing: visible reasoningの低いcontrollabilityはmonitoringにとって有利になり得る。
  • 投稿で名指しされたモデル: GPT-5.4 Thinking。

今回の発表が目立つのは、多くの場合は弱点と見なされる性質をsafety-relevant propertyとして扱った点だ。通常のモデル発表では、より高いcontrollabilityは無条件に良いものとして語られる。しかしOpenAIは、reasoning traceを隠したり書き換えたりしにくいことが一種のaudit blind spotを減らし得ると主張した。もちろんこれでbroader alignmentやreliabilityの問題が解決するわけではないが、モデルのcapabilityが上がる中でもreasoning-monitoring手法をevaluation toolboxに残す理由は強くなる。

一次情報は2026年3月5日のOpenAIのX投稿とリンク先の研究要約ページである。OpenAIはこれをcurrent model behaviorに関するempirical findingとして述べているため、将来のあらゆるreasoning modelが同じようにmonitorableだと断定する読み方は慎重であるべきだ。リンク先の要約ページのタイトルはReasoning models struggle to control their chains of thought, and that's goodとなっている。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.