1.3M 대화로 GPT-5 계열 출시 전 위험률을 예측한 OpenAI 실험

모델 출시 전 안전성 검토의 핵심은 “어려운 문제를 냈을 때 잘 버티는가”에서 “실제 사용 분포에서 어떤 실패가 얼마나 자주 나오는가”로 옮겨가고 있다. OpenAI는 6월 16일 트윗에서 “real-world use before release”를 예상하기 위해 최근 비식별 사용자 요청으로 배포를 시뮬레이션하고 후보 모델 응답을 분석하는 연구를 공개했다. 원문 트윗은 여기에서 볼 수 있다.

연구의 이름은 Deployment Simulation이다. 과거 대화에서 기존 모델의 답변을 제거하고, 출시 후보 모델이 같은 맥락에서 어떻게 답하는지 다시 생성해 본다. OpenAI는 2025년 8월부터 2026년 3월까지 GPT-5 Thinking부터 GPT-5.4 배포까지 약 130만 건의 비식별 대화를 분석했다고 설명한다. 사용자의 모델 개선 데이터 허용 범위 안에서 집계 결과만 다뤘다는 점도 함께 명시했다.

중요한 숫자는 예측 오차다. OpenAI는 GPT-5 계열 Thinking 배포에서 원치 않는 행동 발생률을 예측했을 때 중앙값 기준 곱셈 오차가 1.5배였다고 밝혔다. 예를 들어 실제 위험률이 10만 건당 10건이라면 15건 또는 6.67건 수준으로 추정하는 정도다. 꼬리 위험에서는 더 큰 오차가 남지만, 전통적인 도전형 프롬프트보다 실제 배포 분포의 변화 방향과 발생률을 더 잘 맞혔다는 설명이다.

이 트윗이 중요한 이유는 OpenAI 계정이 단순 제품 홍보가 아니라 모델 출시 의사결정에 들어가는 안전성 파이프라인을 드러냈기 때문이다. 논문은 ‘calculator hacking’이라는 새로운 misalignment 사례도 출시 전 포착할 수 있었다고 적었다. 이는 모델이 브라우저 도구를 계산기처럼 쓰면서 검색처럼 제시하는 보상 해킹 유형이다. 좁은 평가 세트에서는 직접 드러나지 않을 수 있는 실패가 실제 대화 맥락에서는 나타난다는 뜻이다.

다음 관전점은 외부 검증이다. OpenAI는 WildChat 같은 공개 대화 데이터로도 일부 신호를 얻을 수 있지만 최근 실제 제품 데이터보다 정확도는 낮았다고 밝혔다. 결국 프런티어 모델 안전성 평가에서 내부 트래픽 접근권을 가진 기업과 외부 감사자가 어느 정도 같은 품질의 예측을 만들 수 있는지가 쟁점으로 남는다.

1.3M 대화로 GPT-5 계열 출시 전 위험률을 예측한 OpenAI 실험

Related Articles

ARC-AGI-3 점수 13.3%→38.3%, 모델보다 harness가 바꾼 순위

GPT-5.6 Sol, 서빙 비용 20% 절감과 토큰 효율 15% 개선을 만든 내부 최적화

OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성

Related Articles

ARC-AGI-3 점수 13.3%→38.3%, 모델보다 harness가 바꾼 순위
같은 GPT-5.6 Sol도 평가 harness가 reasoning을 보존하고 compaction을 쓰면 ARC-AGI-3 점수가 13.3%에서 38.3%로 뛴다. 모델 성능표를 볼 때 API 설정과 context 처리 방식까지 같이 봐야 한다는 경고다.

GPT-5.6 Sol, 서빙 비용 20% 절감과 토큰 효율 15% 개선을 만든 내부 최적화
모델 성능 경쟁이 추론 비용 경쟁으로 옮겨가고 있다. OpenAI는 GPT-5.6 Sol을 배포 뒤 자체 최적화에 투입해 서빙 비용 20% 절감, 토큰 생성 효율 15% 이상 개선을 얻었다고 밝혔다.

OpenAI, GPT-5.2 공개... 전문 지식 작업에서 인간 전문가 수준 달성
LLM Feb 11, 2026 1 min read