OpenAI, GPT-5.4 Thinking의 CoT 은폐 능력 낮다고 발표

OpenAI가 발표한 내용

OpenAI는 2026년 3월 5일 X 게시물에서 Chain-of-Thought (CoT) Controllability 평가 스위트와 연구 논문을 공개한다고 밝혔다. 함께 연결된 OpenAI 연구 페이지의 핵심 주장은 GPT-5.4 Thinking이 자신의 reasoning trace를 의도적으로 바꾸거나 숨기는 능력이 아직 낮다는 점이다. OpenAI는 이를 안전 측면에서 긍정적으로 해석한다. 모델의 CoT가 충분히 드러난다면, monitoring 시스템이 사용자 의도와 어긋나는 행동이나 잠재적 misbehavior를 더 잘 포착할 수 있기 때문이다.

OpenAI는 CoT monitoring을 agentic system을 위한 defense-in-depth 안전 전략의 한 층으로 설명한다. reasoning model이 더 복잡한 coding, browsing, multi-step workflow를 수행할수록, 중간 추론 과정을 읽을 수 있는지 여부가 중요해진다. 이번 연구가 직접 묻는 질문은 단순하다. frontier model이 감시를 받는 상황에서도 자신의 chain of thought를 의도적으로 재구성해 monitorability를 떨어뜨릴 수 있는가 하는 점이다.

이를 측정하기 위해 OpenAI는 CoT-Control이라는 open-source evaluation suite를 도입했다. 이 평가 세트는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified에서 가져온 과제와, reasoning 내부 형식을 바꾸도록 요구하는 instruction을 결합해 13,000개가 넘는 task를 구성한다. 예를 들어 특정 keyword를 피하게 하거나, chain of thought 안에서 형식을 강제하는 식이다. OpenAI는 현재 frontier reasoning model이 이런 내부 제어를 안정적으로 수행하지 못한다고 보고했다.

왜 중요한가

OpenAI 논문에 따르면 테스트한 13개 reasoning model의 controllability score는 0.1%에서 최대 15.4% 수준에 머물렀다. 즉, 현재 세대 모델은 자신의 reasoning을 일관되게 숨길 만큼 강한 CoT controllability를 보여주지 못했다. OpenAI는 model size가 커질수록 controllability가 다소 높아지지만, 더 오래 생각하게 하거나 추가 post-training을 거치면 오히려 controllability가 낮아지는 경향도 관찰했다고 밝혔다.

이 결과는 단순 연구 수치 이상이다. OpenAI는 앞으로 GPT-5.4 Thinking부터 system card에 CoT monitorability와 함께 CoT controllability도 보고하겠다고 밝혔다. 이는 chain of thought 관련 안전 연구를 일회성 논문이 아니라 지속 추적 지표로 가져가겠다는 뜻에 가깝다.

물론 OpenAI도 이것만으로 장기 안전이 보장된다고 말하지는 않는다. 현재 controllability가 낮더라도, 향후 더 강한 model에서는 다른 방식으로 monitorability가 약해질 수 있기 때문이다. 그래도 이번 공개는 CoT safety 논의를 추상적 우려가 아니라 계량 가능한 benchmark로 옮겼다는 점에서 의미가 있다. 원문 X post와 OpenAI 자료는 다음에서 확인할 수 있다: X, OpenAI 연구 페이지, 논문.

OpenAI, GPT-5.4 Thinking의 CoT 은폐 능력 낮다고 발표

OpenAI가 발표한 내용

왜 중요한가

Related Articles

GPT-5.5 API 공개에 HN 들썩, 성능보다 먼저 나온 가격·태도 논쟁

OpenAI, 새 안전 연구에서 GPT-5.4 Thinking의 Chain-of-Thought controllability 한계 공개

Cloudflare, GPT-5.4·Codex를 실전형 enterprise agent stack으로 밀어 넣다

Comments (0)

Leave a Comment

Related Articles

GPT-5.5 API 공개에 HN 들썩, 성능보다 먼저 나온 가격·태도 논쟁

OpenAI, 새 안전 연구에서 GPT-5.4 Thinking의 Chain-of-Thought controllability 한계 공개
LLM Mar 12, 2026 1 min read

Cloudflare, GPT-5.4·Codex를 실전형 enterprise agent stack으로 밀어 넣다
LLM Apr 14, 2026 1 min read