OpenAI, 새 안전 연구에서 GPT-5.4 Thinking의 Chain-of-Thought controllability 한계 공개

OpenAI는 2026년 3월 5일 X에서 Chain-of-Thought(CoT) Controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 자신의 reasoning을 숨기거나 바꾸는 능력이 낮다고 설명했고, 링크된 연구 요약은 이 결과를 CoT monitoring이 여전히 유용한 safety signal임을 보여주는 근거로 제시했다.

게시물에 연결된 카드에는 이 작업이 CoT-Control이라는 이름의 evaluation setup이라고 적혀 있다. 핵심은 reasoning model이 intermediate reasoning trace의 내용을 의도적으로 바꾸거나 감출 수 있는지 시험하는 것이다. OpenAI의 주장은 reasoning model이 언제나 완전히 transparent하다는 것이 아니다. 대신 현재 frontier reasoning system은 필요할 때 그 trace를 안정적으로 조작하는 데 여전히 한계를 보인다고 말한다. safety 관점에서는 일부 monitoring 기법이 internal reasoning이 어느 정도는 inspectable하다는 가정에 기대고 있기 때문에 이 점이 중요하다.

OpenAI가 공개한 것: 새로운 evaluation suite와 research paper.
연구의 framing: visible reasoning의 낮은 controllability는 monitoring에 유리할 수 있다는 점.
게시물에서 직접 언급된 모델: GPT-5.4 Thinking.

이번 발표가 눈에 띄는 이유는 보통 약점으로 보일 수 있는 특성을 safety-relevant property로 해석했기 때문이다. 많은 모델 발표에서는 더 높은 controllability가 곧 더 나은 성능으로 제시된다. 그러나 OpenAI는 reasoning trace를 숨기거나 다시 쓰는 능력이 낮은 편이라는 사실이 audit blind spot 한 종류를 줄일 수 있다고 주장했다. 이것이 broader alignment나 reliability 문제를 해결한다는 뜻은 아니지만, 모델 capability가 계속 올라가는 상황에서도 reasoning-monitoring 기법을 evaluation toolbox 안에 남겨둘 근거는 더 강해진다.

이 글의 1차 출처는 2026년 3월 5일 OpenAI의 X 게시물과 링크된 연구 요약 페이지다. OpenAI는 이를 current model behavior에 대한 empirical finding으로 설명하고 있으므로, 앞으로의 모든 reasoning model이 똑같이 monitorable할 것이라는 보편적 주장으로 읽는 것은 과도하다. 링크된 요약 페이지 제목은 Reasoning models struggle to control their chains of thought, and that's good이다.

OpenAI, 새 안전 연구에서 GPT-5.4 Thinking의 Chain-of-Thought controllability 한계 공개

Related Articles

Anthropic, Claude Opus 4.6의 BrowseComp eval awareness 사례 공개

OpenAI, First Proof 10문제 중 5개 증명이 맞을 가능성이 높다고 공개

OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성

Comments (0)

Leave a Comment

Related Articles

Anthropic, Claude Opus 4.6의 BrowseComp eval awareness 사례 공개

OpenAI, First Proof 10문제 중 5개 증명이 맞을 가능성이 높다고 공개

OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성
LLM Feb 11, 2026 1 min read