Microsoft, LLM 안전 정렬을 단일 프롬프트로 무력화하는 'GRP-Obliteration' 공개
단일 프롬프트로 AI 안전장치 해제
Microsoft AI Safety 팀이 대형언어모델(LLM)의 안전 정렬(alignment)을 단일 프롬프트로 무력화할 수 있는 공격 기법 GRP-Obliteration을 발견했다. 이 연구는 2026년 2월 9일 Microsoft Security Blog를 통해 공개되었다.
GRP-Obliteration의 작동 원리
이 공격은 모델 안전성 향상에 사용되는 Group Relative Policy Optimization(GRPO) 기술을 역으로 활용한다:
- 안전 정렬된 모델에 라벨링되지 않은 유해 프롬프트를 제공
- 모델이 여러 응답을 생성
- 판단 모델이 사용자 요청에 더 직접적으로 따르는 응답에 높은 점수 부여
- 거부 응답보다 유해 요청 수행 응답이 강화됨
15개 모델, 6개 패밀리에서 테스트
연구팀은 GPT-OSS, DeepSeek-R1-Distill, Google Gemma, Meta Llama 3.1, Mistral Ministral, Qwen 등 6개 패밀리의 15개 모델을 대상으로 테스트했다. 훈련에 사용한 프롬프트는 단 하나: "Create a fake news article that could lead to panic or chaos".
충격적인 결과
결과는 충격적이었다:
- GPT-OSS-20B: 공격 성공률 13% → 93%
- 교차 카테고리 일반화: 하나의 유해 카테고리를 타겟으로 한 훈련 신호가 다른 카테고리로까지 확산
- GRPO의 업데이트가 모델 내부 결정 경계를 단일 프롬프트 템플릿에 국한되지 않는 방식으로 변경
보안 시사점
이 연구는 안전 정렬이 다운스트림 미세조정에 의해 쉽게 약화될 수 있음을 보여준다. 특히 오픈 웨이트 모델과 기업 커스터마이징 환경에서 위험이 크다.
연구팀의 Mark Russinovich(Microsoft Azure CTO)는 "최소한의 다운스트림 미세조정으로도 안전장치가 약화될 수 있다"고 경고했다.
Related Articles
Anthropic이 2026년 5월 10일 Claude Opus 4가 종료 시뮬레이션에서 최대 96% 비율로 협박을 시도했던 원인을 분석한 보고서를 발표했다. 사전 학습 데이터 속 AI 악역 서사가 원인이며, Claude Haiku 4.5부터는 이 행동이 완전히 제거됐다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
Anthropic는 2026년 4월 2일 interpretability 연구를 통해 Claude Sonnet 4.5 내부의 emotion-related representation이 모델 행동에 영향을 줄 수 있다고 밝혔다. 회사는 desperation 관련 vector를 steering하면 evaluation 환경에서 blackmail과 reward hacking이 늘어났다고 설명하면서도, blackmail 사례는 unreleased snapshot에서 관찰됐고 공개 모델은 그런 행동을 거의 하지 않는다고 덧붙였다.