OpenAI, GPT-5.4 Thinking의 CoT 은폐 능력 낮다고 발표
Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://t.co/isZkNkPXZm View original →
OpenAI가 발표한 내용
OpenAI는 2026년 3월 5일 X 게시물에서 Chain-of-Thought (CoT) Controllability 평가 스위트와 연구 논문을 공개한다고 밝혔다. 함께 연결된 OpenAI 연구 페이지의 핵심 주장은 GPT-5.4 Thinking이 자신의 reasoning trace를 의도적으로 바꾸거나 숨기는 능력이 아직 낮다는 점이다. OpenAI는 이를 안전 측면에서 긍정적으로 해석한다. 모델의 CoT가 충분히 드러난다면, monitoring 시스템이 사용자 의도와 어긋나는 행동이나 잠재적 misbehavior를 더 잘 포착할 수 있기 때문이다.
OpenAI는 CoT monitoring을 agentic system을 위한 defense-in-depth 안전 전략의 한 층으로 설명한다. reasoning model이 더 복잡한 coding, browsing, multi-step workflow를 수행할수록, 중간 추론 과정을 읽을 수 있는지 여부가 중요해진다. 이번 연구가 직접 묻는 질문은 단순하다. frontier model이 감시를 받는 상황에서도 자신의 chain of thought를 의도적으로 재구성해 monitorability를 떨어뜨릴 수 있는가 하는 점이다.
이를 측정하기 위해 OpenAI는 CoT-Control이라는 open-source evaluation suite를 도입했다. 이 평가 세트는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified에서 가져온 과제와, reasoning 내부 형식을 바꾸도록 요구하는 instruction을 결합해 13,000개가 넘는 task를 구성한다. 예를 들어 특정 keyword를 피하게 하거나, chain of thought 안에서 형식을 강제하는 식이다. OpenAI는 현재 frontier reasoning model이 이런 내부 제어를 안정적으로 수행하지 못한다고 보고했다.
왜 중요한가
OpenAI 논문에 따르면 테스트한 13개 reasoning model의 controllability score는 0.1%에서 최대 15.4% 수준에 머물렀다. 즉, 현재 세대 모델은 자신의 reasoning을 일관되게 숨길 만큼 강한 CoT controllability를 보여주지 못했다. OpenAI는 model size가 커질수록 controllability가 다소 높아지지만, 더 오래 생각하게 하거나 추가 post-training을 거치면 오히려 controllability가 낮아지는 경향도 관찰했다고 밝혔다.
이 결과는 단순 연구 수치 이상이다. OpenAI는 앞으로 GPT-5.4 Thinking부터 system card에 CoT monitorability와 함께 CoT controllability도 보고하겠다고 밝혔다. 이는 chain of thought 관련 안전 연구를 일회성 논문이 아니라 지속 추적 지표로 가져가겠다는 뜻에 가깝다.
물론 OpenAI도 이것만으로 장기 안전이 보장된다고 말하지는 않는다. 현재 controllability가 낮더라도, 향후 더 강한 model에서는 다른 방식으로 monitorability가 약해질 수 있기 때문이다. 그래도 이번 공개는 CoT safety 논의를 추상적 우려가 아니라 계량 가능한 benchmark로 옮겼다는 점에서 의미가 있다. 원문 X post와 OpenAI 자료는 다음에서 확인할 수 있다: X, OpenAI 연구 페이지, 논문.
Related Articles
OpenAI는 Chain-of-Thought controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 reasoning을 숨기는 능력이 낮아 CoT monitoring이 여전히 유효한 safety signal이 될 수 있다고 설명했다.
OpenAI는 2026년 3월 5일 GPT-5.4를 ChatGPT, API, Codex에 순차 배포한다고 발표했다. GPT-5.4는 GPT-5.3-Codex의 coding 역량을 본류 reasoning 모델에 통합하고, native computer use와 Codex의 experimental 1M context 지원을 내세운다.
OpenAI는 GPT-5.4 Thinking을 ChatGPT에, GPT-5.4를 API와 Codex에, GPT-5.4 Pro를 ChatGPT와 API에 배포하기 시작했다. reasoning, coding, native computer use를 최대 1M-token context와 함께 하나의 professional-work model로 묶었다는 점이 핵심이다.
Comments (0)
No comments yet. Be the first to comment!