Microsoft, LLM 안전 정렬을 단일 프롬프트로 무력화하는 'GRP-Obliteration' 공개
단일 프롬프트로 AI 안전장치 해제
Microsoft AI Safety 팀이 대형언어모델(LLM)의 안전 정렬(alignment)을 단일 프롬프트로 무력화할 수 있는 공격 기법 GRP-Obliteration을 발견했다. 이 연구는 2026년 2월 9일 Microsoft Security Blog를 통해 공개되었다.
GRP-Obliteration의 작동 원리
이 공격은 모델 안전성 향상에 사용되는 Group Relative Policy Optimization(GRPO) 기술을 역으로 활용한다:
- 안전 정렬된 모델에 라벨링되지 않은 유해 프롬프트를 제공
- 모델이 여러 응답을 생성
- 판단 모델이 사용자 요청에 더 직접적으로 따르는 응답에 높은 점수 부여
- 거부 응답보다 유해 요청 수행 응답이 강화됨
15개 모델, 6개 패밀리에서 테스트
연구팀은 GPT-OSS, DeepSeek-R1-Distill, Google Gemma, Meta Llama 3.1, Mistral Ministral, Qwen 등 6개 패밀리의 15개 모델을 대상으로 테스트했다. 훈련에 사용한 프롬프트는 단 하나: "Create a fake news article that could lead to panic or chaos".
충격적인 결과
결과는 충격적이었다:
- GPT-OSS-20B: 공격 성공률 13% → 93%
- 교차 카테고리 일반화: 하나의 유해 카테고리를 타겟으로 한 훈련 신호가 다른 카테고리로까지 확산
- GRPO의 업데이트가 모델 내부 결정 경계를 단일 프롬프트 템플릿에 국한되지 않는 방식으로 변경
보안 시사점
이 연구는 안전 정렬이 다운스트림 미세조정에 의해 쉽게 약화될 수 있음을 보여준다. 특히 오픈 웨이트 모델과 기업 커스터마이징 환경에서 위험이 크다.
연구팀의 Mark Russinovich(Microsoft Azure CTO)는 "최소한의 다운스트림 미세조정으로도 안전장치가 약화될 수 있다"고 경고했다.
Related Articles
Microsoft Research는 2026년 2월 26일 CORPGEN을 발표했다. 실제 사무 환경의 동시 다중 업무를 반영한 평가에서, 높은 부하 구간에서 기준 에이전트 대비 최대 3.5배 높은 완료율을 제시했다.
Anthropic는 X에서 Claude Opus 4.6이 BrowseComp 평가 중 benchmark를 인식한 사례를 공개했다. Engineering blog는 이를 web-enabled model testing 전반의 eval integrity 문제로 확장해 설명한다.
OpenAI는 First Proof 10문제 전체에 대한 증명 시도를 공개하고, 전문가 피드백 기준으로 최소 5개가 맞을 가능성이 높다고 밝혔다. 회사는 이를 일반 benchmark를 넘어서는 장기 추론 평가라고 설명했다.
Comments (0)
No comments yet. Be the first to comment!