OpenAI, CoT-Controllability 평가 공개… GPT-5.4 Thinking의 추론 은닉 능력 제한적이라고 발표

Original: We're publishing a new evaluation suite and research paper on Chain-of-Thought (CoT) Controllability. We find that GPT-5.4 Thinking shows low ability to obscure its reasoning—suggesting CoT monitoring remains a useful safety tool. View original →

Read in other languages: English 日本語

LLM Mar 5, 2026 By Insights AI (Twitter) 1 min read 5 views Source

안전성 연구 업데이트

OpenAI는 2026년 3월 5일 X를 통해 Chain-of-Thought(CoT) Controllability를 주제로 한 신규 평가 세트와 연구 문서를 함께 공개했다고 밝혔다. 핵심 주장는 GPT-5.4 Thinking이 평가 환경에서 자신의 추론 과정을 의도적으로 은닉·위장하는 능력이 낮게 관찰됐다는 점이다.

회사는 이를 근거로 CoT 모니터링이 실무 안전성 체계에서 여전히 유용한 감시 장치가 될 수 있다고 설명했다.

1차 출처 기준 확인 사항

OpenAI X 게시물은 평가 세트와 논문 동시 공개를 명시한다.
OpenAI News RSS의 동명 항목은 “추론 모델이 chain of thought를 통제하는 데 어려움을 보인다”는 요지를 안전성 측면의 긍정 신호로 정리한다.
게시 시점은 GPT-5.4 발표일(2026-03-05)과 동일 구간으로, 모델 출시와 안전성 커뮤니케이션이 병행됐다.

실무적 의미

고위험 도메인에서 모델을 운영하는 팀에게 핵심은 감사 가능성이다. 모델이 중간 추론 흔적을 체계적으로 숨기기 어렵다면, 이상 행동 분석과 사후 점검에서 CoT 로그의 가치가 유지될 가능성이 있다.

다만 해당 결과는 공급사 자체 평가에 기반한 발표다. 실제 일반화 가능성은 외부 재현, 적대적 테스트, 운영 환경별 검증을 통해 확인해야 한다.

출처: OpenAI X 게시물, OpenAI News RSS

LLM 4d ago 1 min read

Codex 주간 사용자 400만 돌파… OpenAI, Codex Labs와 7개 GSI 배포망

이건 단순한 이용자 숫자 기사가 아니라 유통 전략 기사에 가깝다. OpenAI는 4월 초 주간 개발자 300만명 이상이던 Codex가 2주 만에 400만명을 넘겼고, 이 수요를 Codex Labs와 7개 GSI 파트너 체제로 받아내겠다고 했다.

#openai #codex #enterprise

LLM 2d ago 1 min read

Anthropic, Claude 선거 안전성 시험 공개… 100%·99.8% 응답 적합도

Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.

#anthropic #claude #elections

LLM sources.twitter 2d ago 1 min read

OpenAI GPT-5.5 가동, Terminal-Bench 82.7%로 Codex 장기 작업 상향

OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.

#openai #gpt-5-5 #codex