Anthropic, 대규모 모델 증류(distillation) 공격 캠페인 공개
Original: Anthropic warns distillation attacks are growing in intensity and sophistication View original →
Anthropic 발표의 핵심
Anthropic는 2026년 2월 23일 X 게시물에서 모델 증류(distillation) 공격이 더 정교하고 강하게 진행되고 있다고 밝혔다. 또한 단일 기업 차원의 문제가 아니라 AI 업계 전반의 보안 과제라고 규정하면서, 기업·클라우드·정책 당국의 공조 대응이 필요하다고 강조했다.
연결된 공식 글에서 제시된 수치
Anthropic 공식 글은 DeepSeek, Moonshot, MiniMax와 연계된 3개 대형 캠페인을 언급한다. 글에 따르면 이들 캠페인은 약 2만4천 개의 사기 계정을 통해 1,600만 건 이상의 Claude 상호작용을 생성했으며, agentic reasoning·tool use·coding 같은 고가치 능력 추출에 집중했다. Anthropic는 증류 기법 자체는 합법적 활용이 가능하다고 인정하면서도, 해당 사례는 서비스 약관과 지역 접근 제한을 우회한 산업 규모의 무단 역공학에 해당한다고 주장했다.
대응 전략과 정책 함의
Anthropic는 탐지 분류기와 행위 지문 분석, 대규모 계정 연계 탐지, 취약 가입 경로에 대한 검증 강화, 타 기관과의 지표 공유, API/제품 수준 완화책을 병행하겠다고 밝혔다. 또 증류 공격이 수출통제 정책의 실효성과도 연결된다고 설명한다. 세부 내용은 기업 자체 보고라는 한계가 있지만, 이번 공개는 AI 보안 논의에서 실제 운영 데이터와 대응 프레임을 제시했다는 점에서 의미가 있다.
Sources: Anthropic X post, Anthropic security write-up
Related Articles
AI 보안의 쟁점이 피싱 작성에서 침투 이후 자동화로 이동하고 있다. Anthropic은 832개 악성 계정을 MITRE ATT&CK에 매핑했고, 중위험 이상 행위자 비율이 33%에서 56%로 뛰었다고 밝혔다.
미국 백악관의 NSPM-11은 국가안보 영역에서 AI 도입 속도를 높이면서 조달, 자율무기, 보안 검증 규칙을 다시 쓰라고 지시한다. 핵심 시한은 90일과 120일이며, 여러 공급사의 frontier 모델을 빠르게 들여오는 구조가 전면에 놓였다.
AI 연구 자동화가 추상적 위험에서 실험 지표로 이동했다. Anthropic은 Mythos Preview가 최적화 과제에서 약 52배 속도 향상을 냈고, 연구 다음 단계 판단에서도 64% 우위를 보였다고 밝혔다.