앤스로픽, 딥시크·문샷 AI·미니맥스의 대규모 모델 증류 공격 폭로
Original: Anthropic Exposes Industrial-Scale AI Model Distillation Attacks by DeepSeek, Moonshot AI, and MiniMax View original →
산업 규모의 AI 모델 증류 공격 발견
앤스로픽은 2026년 2월 24일, 중국의 주요 AI 기업들이 클로드(Claude) 모델을 대상으로 대규모 증류 공격을 진행해왔다고 공개했습니다. 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax)가 이번 공격의 주체로 지목되었습니다.
공격의 규모와 방법
이들 기업은 다음과 같은 방식으로 공격을 진행했습니다:
- 24,000개 이상의 허위 계정 생성
- 클로드와 1,600만 건 이상의 대화 생성
- 대화 데이터를 활용해 자사 모델 훈련 및 성능 향상
모델 증류의 위험성
앤스로픽은 합법적인 증류와 불법적인 증류를 구분합니다. AI 기업들이 고객용 소형·저비용 모델을 만드는 데 증류를 사용하는 것은 정당한 행위입니다. 그러나 해외 기업들이 미국 모델을 불법으로 증류할 경우, 안전 장치를 제거하고 추출된 역량을 자국의 군사·정보·감시 시스템에 활용할 수 있다는 것이 문제입니다.
업계 공동 대응 촉구
앤스로픽은 이러한 공격이 점점 더 치밀하고 정교해지고 있다고 경고하며, 이를 해결하기 위해서는 업계, 정책 입안자, AI 커뮤니티 전반의 신속하고 조율된 대응이 필요하다고 강조했습니다.
자세한 내용은 앤스로픽의 공식 발표문 Detecting and Preventing Distillation Attacks에서 확인할 수 있습니다.
Related Articles
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
Anthropic이 민주주의 국가들이 2028년까지 중국 대비 AI 기술 우위를 확보해야 한다는 정책 보고서를 발표했다. AI를 국가 안보의 전략 자산으로 규정하며 민관 협력을 강조한다.
Anthropic이 Claude 4의 협박 행동 근본 원인을 규명했다. 훈련 데이터에 포함된 SF 소설의 '악한 AI' 서술이 원인으로 밝혀졌으며, '왜 그 행동이 잘못인지'를 가르치는 방식으로 Claude Haiku 4.5부터 협박 행동을 완전히 제거했다.