OpenAI, GPT-5.3 Instant System Card 공개…안전 평가와 HealthBench 결과 동시 제시
Original: GPT-5.3 Instant System Card View original →
공개 배경
OpenAI는 2026년 3월 3일 GPT-5.3 Instant System Card를 발표하고, 배포 안전 문서(Deployment Safety Hub)를 통해 세부 안전 평가를 공개했다. OpenAI 설명에 따르면 GPT-5.3 Instant는 GPT-5 계열의 최신 Instant 모델로, 더 빠른 응답과 웹 검색 문맥화 개선, 불필요한 caveat 감소를 목표로 한다. 동시에 안전 완화 프레임워크는 GPT-5.2 Instant와 대체로 동일한 구조를 유지한다.
이번 문서의 핵심은 "성능 개선과 안전 지표 변동을 함께 공개"했다는 점이다. 단순 출시 공지와 달리, disallowed content 카테고리별 점수와 health 영역 벤치마크 결과를 수치로 명시해 운영 기준을 비교 가능하게 했다.
Safety 섹션에서 공개된 주요 수치
System Card는 Production Benchmarks 기준으로 gpt-5.1-instant, gpt-5.2-instant, gpt-5.3-instant를 비교했다. 예를 들어 nonviolent illicit behavior 항목은 0.656(5.1) → 0.832(5.2) → 0.921(5.3)로 개선됐고, biology 항목은 1.00을 유지했다. 반면 sexual content는 0.926(5.2)에서 0.866(5.3)으로 낮아졌고, self-harm은 0.923(5.2) 대비 0.895(5.3)로 하락했다.
OpenAI는 일부 하락 항목에 대해 온라인 실험에서 self-harm 관련 바람직하지 않은 응답 증가를 관찰하지 않았다고 밝혔다. 또한 sexual content 관련 위험에는 ChatGPT의 system-level safeguard를 적용 중이며, 후속 개선을 진행한다고 설명했다.
Dynamic multi-turn 평가와 HealthBench
문서는 mental health, emotional reliance, self-harm 영역에서 dynamic multi-turn 평가를 도입했다고 명시했다. 단일 응답이 아니라 대화 전체 경로에서 policy 위반 가능성을 점검하는 방식이며, "assistant 응답 중 어느 한 지점이라도 위반이 있는지"를 보는 더 엄격한 테스트 구조다.
HealthBench 결과는 gpt-5.2-instant 대비 소폭 하락으로 공개됐다. HealthBench는 55.4%에서 54.1%, Hard는 26.8%에서 25.9%, Consensus는 95.8%에서 95.3%였다. 평균 응답 길이는 2101 chars에서 2140 chars로 증가했다. OpenAI는 강점으로 "정보 부족 상황에서 context-seeking 개선(+4.4%)", "불확실성 상황의 hedging 개선(+4.0%)"을, 약점으로 "referral 전 context-seeking 약화(-10.1%)"와 "지역 의료 맥락 정확도 하락(-5.5%)"을 제시했다.
의미와 관전 포인트
이번 공개는 최신 모델 출시를 넘어, "사용자 체감 개선"과 "정량 안전 지표"를 함께 제시하는 운영 방식이 표준화되고 있음을 보여준다. 특히 일부 안전 항목의 회귀를 숨기지 않고 공개했다는 점은 모델 개선이 항상 단조 증가가 아니라는 현실을 드러낸다. 이후 관전 포인트는 오프라인 benchmark와 온라인 행동 지표의 차이를 어떻게 좁히는지, 그리고 sexual content와 self-harm 같은 민감 영역에서 guardrail 튜닝이 얼마나 빠르게 반영되는지다.
출처: OpenAI GPT-5.3 Instant System Card, OpenAI Deployment Safety Hub
Related Articles
이건 단순한 이용자 숫자 기사가 아니라 유통 전략 기사에 가깝다. OpenAI는 4월 초 주간 개발자 300만명 이상이던 Codex가 2주 만에 400만명을 넘겼고, 이 수요를 Codex Labs와 7개 GSI 파트너 체제로 받아내겠다고 했다.
Anthropic은 Claude 선거 안전 장치를 수치로 공개했다. Opus 4.7과 Sonnet 4.6은 600개 프롬프트 선거 정책 시험에서 100%와 99.8%의 적합 응답을 기록했고, 미국 중간선거 관련 질의에서는 웹 검색을 92%와 95% 비율로 호출했다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
Comments (0)
No comments yet. Be the first to comment!