OpenAI 안전 정렬 프레임 공개: chain of command 적용 시 불확실 요청 거절률 97%
Original: How we think about safety alignment View original →
OpenAI는 2026년 2월 13일 안전 정렬(safety alignment) 설계를 정리한 문서를 공개했다. 핵심은 모델이 지시를 "무조건 수행"하는 구조가 아니라, 지시의 출처와 우선순위를 구분해 충돌을 해소하는 구조를 학습해야 한다는 점이다. 회사는 이를 instruction hierarchy라는 개념으로 설명했다.
공개 프레임에서 우선순위는 system, developer, user, guideline 순으로 제시된다. 같은 대화 안에 상충 지시가 있을 때 모델은 가장 상위 레벨의 의도를 우선해야 하며, 하위 지시는 상위 정책을 위반하지 않는 범위에서만 따르도록 설계한다. OpenAI는 이를 "chain of command"로 표현했다.
문서에서 특히 강조된 부분은 불확실성 처리다. OpenAI에 따르면 모델이 안전 여부를 확신하지 못하는 상황에서, 단순 응답 전략을 사용하면 불확실 요청의 약 59%를 거절하고 약 41%는 그대로 답변하는 패턴이 나타났다. 반면 uncertainty-aware 전략과 우선순위 추론을 결합했을 때, 같은 조건에서 거절 비중이 약 97%까지 올라가고 답변 비중은 사실상 0%로 낮아졌다고 보고했다.
또한 OpenAI는 ConflictQA 계열 평가에서 규칙 준수율(rule-following) 95.4%, 정답이 없는 경우의 올바른 abstention 100%라는 수치를 제시했다. 단순 지시 충돌 시나리오에서도 chain-of-command 방식이 기준 모델 대비 크게 개선됐다는 결과를 함께 공개했다.
실무 관점에서 이 접근은 두 가지 함의를 갖는다. 첫째, 프롬프트 방어를 사용자 입력 정제 수준에만 두지 않고, 모델 내부의 우선순위 추론 체계까지 확장해야 한다. 둘째, "정답을 내는 능력"과 "답하지 말아야 할 때 멈추는 능력"을 별도 KPI로 운영해야 한다.
남은 과제도 분명하다. 벤더가 제시한 평가셋이 실제 공격 패턴을 충분히 대변하는지, 다국어·도메인 특화 상황에서 동일 성능이 유지되는지, 정책 업데이트 시 과도한 거절(false refusal)이 증가하지 않는지 계속 검증이 필요하다. 그럼에도 이번 문서는 안전 정렬을 개념 수준이 아니라 측정 가능한 운영 지표로 옮기려는 시도를 구체화했다는 점에서 중요하다.
Related Articles
OpenAI는 AI-enabled 아동 성착취 위험 대응을 위한 Child Safety Blueprint를 2026년 4월 8일 공개했다. 이 문서는 법·수사 협력·system design을 함께 다루는 공통 프레임워크를 제안한다.
OpenAI의 4월 21일 system card는 ChatGPT Images 2.0의 safety tradeoff를 숫자로 공개했다. Thinking mode에서 final blocking 전 policy-violating image 비율이 6.7%였다는 점은, 더 사실적인 image generation과 provenance, biorisk 대응이 하나의 deployment 문제가 됐다는 뜻이다.
OpenAI는 March 23, 2026 Sora 영상에 visible·invisible provenance 신호와 C2PA metadata를 넣고, 실존 인물이 등장하는 영상에는 더 강한 consent 제어를 적용한다고 밝혔다. 회사는 teen 전용 보호, video·audio 전반의 filtering, living artist 모방 차단도 함께 설명했다.
Comments (0)
No comments yet. Be the first to comment!