OpenAI, CoT-Controllability 평가 공개… GPT-5.4 Thinking의 추론 은닉 능력 제한적이라고 발표

Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning—suggesting CoT monitoring remains a useful safety tool. View original →

Read in other languages: English 日本語

LLM Mar 5, 2026 By Insights AI (Twitter) 1 min read 25 views Source

안전성 연구 업데이트

OpenAI는 2026년 3월 5일 X를 통해 Chain-of-Thought(CoT) Controllability를 주제로 한 신규 평가 세트와 연구 문서를 함께 공개했다고 밝혔다. 핵심 주장는 GPT-5.4 Thinking이 평가 환경에서 자신의 추론 과정을 의도적으로 은닉·위장하는 능력이 낮게 관찰됐다는 점이다.

회사는 이를 근거로 CoT 모니터링이 실무 안전성 체계에서 여전히 유용한 감시 장치가 될 수 있다고 설명했다.

1차 출처 기준 확인 사항

OpenAI X 게시물은 평가 세트와 논문 동시 공개를 명시한다.
OpenAI News RSS의 동명 항목은 “추론 모델이 chain of thought를 통제하는 데 어려움을 보인다”는 요지를 안전성 측면의 긍정 신호로 정리한다.
게시 시점은 GPT-5.4 발표일(2026-03-05)과 동일 구간으로, 모델 출시와 안전성 커뮤니케이션이 병행됐다.