OpenAI 안전 정렬 프레임 공개: chain of command 적용 시 불확실 요청 거절률 97%
Original: How we think about safety alignment View original →
OpenAI는 2026년 2월 13일 안전 정렬(safety alignment) 설계를 정리한 문서를 공개했다. 핵심은 모델이 지시를 "무조건 수행"하는 구조가 아니라, 지시의 출처와 우선순위를 구분해 충돌을 해소하는 구조를 학습해야 한다는 점이다. 회사는 이를 instruction hierarchy라는 개념으로 설명했다.
공개 프레임에서 우선순위는 system, developer, user, guideline 순으로 제시된다. 같은 대화 안에 상충 지시가 있을 때 모델은 가장 상위 레벨의 의도를 우선해야 하며, 하위 지시는 상위 정책을 위반하지 않는 범위에서만 따르도록 설계한다. OpenAI는 이를 "chain of command"로 표현했다.
문서에서 특히 강조된 부분은 불확실성 처리다. OpenAI에 따르면 모델이 안전 여부를 확신하지 못하는 상황에서, 단순 응답 전략을 사용하면 불확실 요청의 약 59%를 거절하고 약 41%는 그대로 답변하는 패턴이 나타났다. 반면 uncertainty-aware 전략과 우선순위 추론을 결합했을 때, 같은 조건에서 거절 비중이 약 97%까지 올라가고 답변 비중은 사실상 0%로 낮아졌다고 보고했다.
또한 OpenAI는 ConflictQA 계열 평가에서 규칙 준수율(rule-following) 95.4%, 정답이 없는 경우의 올바른 abstention 100%라는 수치를 제시했다. 단순 지시 충돌 시나리오에서도 chain-of-command 방식이 기준 모델 대비 크게 개선됐다는 결과를 함께 공개했다.
실무 관점에서 이 접근은 두 가지 함의를 갖는다. 첫째, 프롬프트 방어를 사용자 입력 정제 수준에만 두지 않고, 모델 내부의 우선순위 추론 체계까지 확장해야 한다. 둘째, "정답을 내는 능력"과 "답하지 말아야 할 때 멈추는 능력"을 별도 KPI로 운영해야 한다.
남은 과제도 분명하다. 벤더가 제시한 평가셋이 실제 공격 패턴을 충분히 대변하는지, 다국어·도메인 특화 상황에서 동일 성능이 유지되는지, 정책 업데이트 시 과도한 거절(false refusal)이 증가하지 않는지 계속 검증이 필요하다. 그럼에도 이번 문서는 안전 정렬을 개념 수준이 아니라 측정 가능한 운영 지표로 옮기려는 시도를 구체화했다는 점에서 중요하다.
Related Articles
Anthropic는 powerful AI가 사회에 던질 과제를 다루는 공익 조직 The Anthropic Institute를 출범시켰다. 회사는 이 조직이 technical·economic·social science 관점을 결합해 public conversation을 넓히는 역할을 맡는다고 밝혔다.
OpenAI는 2026년 2월 28일 Department of War와의 분류 환경 AI 배치 계약을 공개했고, 3월 2일 국내 감시 금지 문구를 추가했다고 밝혔다. 회사는 cloud-only 배포, safety stack 통제, 인가된 OpenAI 인력 참여를 핵심 안전 장치로 제시했다.
OpenAI가 AI 정렬·안전 연구를 위한 독립 연구 프로그램에 750만 달러를 약정했다. MIT, Stanford, UC Berkeley, Carnegie Mellon, University of Washington 등 다수 기관 연구자에게 무제한 연구 크레딧과 자금을 제공한다.
Comments (0)
No comments yet. Be the first to comment!