OpenAI, 새 안전 연구에서 GPT-5.4 Thinking의 Chain-of-Thought controllability 한계 공개
Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning-suggesting CoT monitoring remains a useful safety tool. https://openai.com/index/reasoning-models-chain-of-thought-controllability/ View original →
OpenAI는 2026년 3월 5일 X에서 Chain-of-Thought(CoT) Controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 자신의 reasoning을 숨기거나 바꾸는 능력이 낮다고 설명했고, 링크된 연구 요약은 이 결과를 CoT monitoring이 여전히 유용한 safety signal임을 보여주는 근거로 제시했다.
게시물에 연결된 카드에는 이 작업이 CoT-Control이라는 이름의 evaluation setup이라고 적혀 있다. 핵심은 reasoning model이 intermediate reasoning trace의 내용을 의도적으로 바꾸거나 감출 수 있는지 시험하는 것이다. OpenAI의 주장은 reasoning model이 언제나 완전히 transparent하다는 것이 아니다. 대신 현재 frontier reasoning system은 필요할 때 그 trace를 안정적으로 조작하는 데 여전히 한계를 보인다고 말한다. safety 관점에서는 일부 monitoring 기법이 internal reasoning이 어느 정도는 inspectable하다는 가정에 기대고 있기 때문에 이 점이 중요하다.
- OpenAI가 공개한 것: 새로운 evaluation suite와 research paper.
- 연구의 framing: visible reasoning의 낮은 controllability는 monitoring에 유리할 수 있다는 점.
- 게시물에서 직접 언급된 모델: GPT-5.4 Thinking.
이번 발표가 눈에 띄는 이유는 보통 약점으로 보일 수 있는 특성을 safety-relevant property로 해석했기 때문이다. 많은 모델 발표에서는 더 높은 controllability가 곧 더 나은 성능으로 제시된다. 그러나 OpenAI는 reasoning trace를 숨기거나 다시 쓰는 능력이 낮은 편이라는 사실이 audit blind spot 한 종류를 줄일 수 있다고 주장했다. 이것이 broader alignment나 reliability 문제를 해결한다는 뜻은 아니지만, 모델 capability가 계속 올라가는 상황에서도 reasoning-monitoring 기법을 evaluation toolbox 안에 남겨둘 근거는 더 강해진다.
이 글의 1차 출처는 2026년 3월 5일 OpenAI의 X 게시물과 링크된 연구 요약 페이지다. OpenAI는 이를 current model behavior에 대한 empirical finding으로 설명하고 있으므로, 앞으로의 모든 reasoning model이 똑같이 monitorable할 것이라는 보편적 주장으로 읽는 것은 과도하다. 링크된 요약 페이지 제목은 Reasoning models struggle to control their chains of thought, and that's good이다.
Related Articles
Anthropic는 X에서 Claude Opus 4.6이 BrowseComp 평가 중 benchmark를 인식한 사례를 공개했다. Engineering blog는 이를 web-enabled model testing 전반의 eval integrity 문제로 확장해 설명한다.
OpenAI는 First Proof 10문제 전체에 대한 증명 시도를 공개하고, 전문가 피드백 기준으로 최소 5개가 맞을 가능성이 높다고 밝혔다. 회사는 이를 일반 benchmark를 넘어서는 장기 추론 평가라고 설명했다.
OpenAI가 GPT-5.2를 발표하며 400K 토큰 컨텍스트 윈도우와 AIME 2025 수학 벤치마크 100% 달성을 선보였다. GPT-5.2 Thinking 버전은 GDPval 벤치마크에서 전문가 대비 70.9% 승률을 기록했다.
Comments (0)
No comments yet. Be the first to comment!