OpenAI, 적대적 압박에도 유지되는 정렬 훈련으로 12개 영역 일반화와 파인튜닝 내성 검증
Original: OpenAI tests alignment training that survives adversarial pressure View original →
정렬 훈련의 기준이 지속성으로 이동
AI가 더 긴 작업과 높은 책임의 업무를 맡을수록, 안전한 답변 습관이 학습 예시 밖에서도 유지되는지가 중요해진다. OpenAI는 6월 18일 X 게시물에서 모델이 새로운 영역에서도 유익하고 안전한 행동을 이어가야 하며, 그 행동을 maintain it under pressure 해야 한다고 설명했다. 링크된 연구 글은 폭넓고 지속적인 유익성을 목표로 한 강화학습을 다룬다.
연구가 겨냥한 특성은 진실성, 불확실성 앞에서의 겸손함, 정정 수용, 공정성, 인간 복지에 대한 고려다. OpenAI는 현실적인 대화로 모델을 훈련하고, 그 행동이 건강, 과학, 교육을 포함한 12개 영역으로 일반화되는지 평가했다고 설명한다. 한 벤치마크에서 좋아 보이는 모델도 프롬프트가 바뀌거나 사용자가 압박하거나 파인튜닝 목표가 좁아지면 다른 행동을 보일 수 있기 때문이다.
OpenAI 공식 계정은 이런 연구 포인터를 공개 안전 기록의入口로 자주 사용한다. 이번 연결 글은 유익한 특성 강화학습을 받은 모델이 적대적 프롬프트와 해로운 파인튜닝으로 유도하기 더 어려웠다고 설명한다. 핵심은 특정 평가 세트의 요령을 가르치는 것이 아니라, 행동 기준이 영역을 넘어 이동하는지 확인하는 데 있다.
다음 쟁점은 규모 확장이다. 지속적 정렬은 모델 크기, 도구 사용, 멀티에이전트 환경, 고객 맞춤 파인튜닝에서도 버텨야 의미가 있다. 후속 결과에서 외부 기준 모델과의 비교, 실패 사례의 더 자세한 공개, 브라우징·코딩·도구 호출이 가능한 에이전트에서도 같은 훈련법이 통하는지 확인해야 한다. 출처: OpenAI X 게시물, OpenAI 정렬 연구 글.
Related Articles
모델 안전성 검토가 손으로 만든 테스트를 넘어 출시 전 위험률 예측으로 이동하고 있다. OpenAI는 약 130만 건의 비식별 대화를 활용했고, GPT-5 계열에서 중앙값 1.5배 오차를 보고했다.
무료 ChatGPT의 건강 답변 품질이 유료 추론 모델 수준에 가까워졌다. OpenAI는 매주 2억3000만 명 이상이 건강·웰니스 질문을 한다고 밝혔고, GPT-5.5 Instant를 그 접점에 배치했다.
OpenAI는 Chain-of-Thought controllability 평가 세트와 연구 문서를 공개했다고 밝혔다. 회사는 GPT-5.4 Thinking이 추론 과정을 의도적으로 숨기는 능력이 낮게 나타났으며, CoT 모니터링이 여전히 안전성 도구로 유효하다고 설명했다.