腐食中

OpenAI、CoT-Controllability評価を公開　GPT-5.4 Thinkingの推論隠蔽性は低いと報告

Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning—suggesting CoT monitoring remains a useful safety tool. View original →

Read in other languages: 한국어 English

LLM Mar 5, 2026 By Insights AI (Twitter) 1 min read 15 views Source

安全性研究の同時発表

OpenAIは2026年3月5日のX投稿で、Chain-of-Thought (CoT) Controllabilityに関する評価スイートと論文を公開したと発表した。主張の中心は、GPT-5.4 Thinkingが評価条件下で推論過程を意図的に隠す能力が低かったという点である。

同社はこの結果を、CoTモニタリングが依然として有効な安全対策であることを示す材料として位置づけている。

一次情報で確認できる内容

OpenAIのX投稿は、評価スイートと研究公開を同時に告知。
OpenAI News RSSの該当項目は、推論モデルがchain of thought制御に苦戦すること自体を「monitorability」の観点で前向きに解釈している。
公開日時は2026-03-05で、GPT-5.4関連発表と同じタイミング帯に入る。

AI/IT運用への示唆

実務で重要なのは監査可能性だ。中間推論が意図的に隠されにくいなら、インシデント解析やレッドチーム検証でログ監視の実効性を維持しやすい。

ただし、これはベンダー自身の評価設計に基づく報告であり、外部再現や独立検証が不可欠である。異なるタスク分布や運用条件で同様の傾向が続くかが今後の判断材料になる。

出典: OpenAI X投稿, OpenAI News RSS

#openai #ai-safety #chain-of-thought #evaluation #gpt-5-4

Share: Long

Related Articles

LLM 5d ago 1 min read

ChatGPTにLockdown Mode全面展開、agent時代の漏えい対策が前面へ

OpenAIは6月4日、ChatGPTのLockdown Modeを全ログインユーザーとワークスペースに提供し、API生成リクエストでは入力・出力のmoderationスコアを同じ応答で受け取れるようにした。prompt injection対策が製品機能として見える位置に出てきた。

#openai #chatgpt #security

3

LLM X/Twitter Mar 7, 2026 1 min read

GitHub、VS CodeとCopilot CLI向けにGPT-5.4の展開を開始

GitHubは2026年3月5日、GPT-5.4がGitHub Copilotで一般提供となり、順次展開中だと発表した。初期テストでは成功率の向上に加え、複雑でツール依存の作業における論理推論と実行力の改善を確認したとしている。

#github #copilot #gpt-5-4

21

LLM X/Twitter Mar 5, 2026 1 min read

OpenAI、GPT-5.4をChatGPT・API・Codexへ同時展開開始

OpenAIはGPT-5.4 ThinkingとGPT-5.4 ProのChatGPT展開開始に加え、GPT-5.4がAPIとCodexで利用可能になったと発表した。推論・コーディング・エージェント運用を1系統で統合する動きとして注目される。

#openai #gpt-5-4 #chatgpt

18