Anthropic, Claude 대상 대규모 distillation attack 실태 공개

Anthropic은 2026년 2월 23일 Claude의 능력을 distillation attack으로 추출하려는 industrial-scale 시도를 탐지했다고 밝혔다. 해당 글에서 회사는 DeepSeek, Moonshot, MiniMax를 지목했고, 이 캠페인들이 Anthropic의 terms of service와 지역 접근 제한을 위반한 약 24,000개의 fraudulent account를 통해 Claude와 16 million회가 넘는 상호작용을 만들었다고 주장했다.

Anthropic은 일반적인 distillation과 자사가 관찰했다고 말한 행위를 명확히 구분했다. distillation 자체는 더 강한 모델에서 더 작고 저렴한 모델을 훈련하는 데 쓰이는 표준 기법이며, 같은 lab 내부에서도 널리 사용된다. 하지만 Anthropic의 주장은 경쟁사가 독자적으로 능력을 개발하는 대신 fraudulent access와 반복적인 대량 prompting을 이용해 Claude의 능력을 자사 시스템으로 이전하려 했다는 것이다.

Anthropic에 따르면 이 캠페인들은 proxy service와 hydra cluster architecture에 의존했다. 이는 Anthropic API와 제3자 cloud platform 전반에 트래픽을 분산시키는 대규모 account 네트워크를 뜻한다. 회사는 한 proxy network가 동시에 20,000개가 넘는 fraudulent account를 운영했다고 설명했다. 또한 특정 캠페인은 새 모델이 출시된 뒤 24시간 안에 목표를 전환했으며, 이는 운영자들이 Claude 능력의 변화를 매우 밀접하게 추적하고 있었음을 시사한다고 덧붙였다.

보안 측면의 논점은 단순한 경쟁 문제를 넘어선다. Anthropic은 illicit distillation이 safety behavior를 벗겨내고, 특히 cyber misuse나 bioweapon 관련 지식처럼 민감한 영역에서 강력한 모델 능력이 어떻게 퍼지는지에 대한 다른 연구소의 가시성을 떨어뜨릴 수 있다고 주장했다. 또한 겉으로 보이는 능력 향상이 기존 미국 frontier model에서의 추출 결과일 수 있기 때문에 export control 논의도 더 복잡해진다고 설명했다.

대응책으로 Anthropic은 chain-of-thought elicitation을 포함한 distillation 패턴을 탐지하기 위한 classifier와 behavioral fingerprinting system을 구축했으며, 다른 AI lab, cloud provider, 관련 당국과 technical indicator를 공유하고 있다고 밝혔다. 다만 이 글은 Anthropic 자체 설명이므로, 핵심 주장은 독립된 판정이 아니라 회사의 공개 주장으로 이해할 필요가 있다. 그럼에도 이번 공개는 model extraction이 frontier AI 기업에게 얼마나 중요한 보안 이슈가 되었는지를 보여주는 가장 구체적인 사례 중 하나다.

Anthropic, Claude 대상 대규모 distillation attack 실태 공개

Related Articles

클로드, 금융 업무를 대행하다—Pitch Builder부터 KYC 검토까지 10개 에이전트 출시

Anthropic, 금융 서비스용 AI 에이전트 10종 공개

Claude Security 퍼블릭 베타 개시 — 코드 취약점 자동 탐지·패치 제안

Comments (0)

Leave a Comment