Anthropic, 대규모 모델 증류(distillation) 공격 캠페인 공개
Original: Anthropic warns distillation attacks are growing in intensity and sophistication View original →
Anthropic 발표의 핵심
Anthropic는 2026년 2월 23일 X 게시물에서 모델 증류(distillation) 공격이 더 정교하고 강하게 진행되고 있다고 밝혔다. 또한 단일 기업 차원의 문제가 아니라 AI 업계 전반의 보안 과제라고 규정하면서, 기업·클라우드·정책 당국의 공조 대응이 필요하다고 강조했다.
연결된 공식 글에서 제시된 수치
Anthropic 공식 글은 DeepSeek, Moonshot, MiniMax와 연계된 3개 대형 캠페인을 언급한다. 글에 따르면 이들 캠페인은 약 2만4천 개의 사기 계정을 통해 1,600만 건 이상의 Claude 상호작용을 생성했으며, agentic reasoning·tool use·coding 같은 고가치 능력 추출에 집중했다. Anthropic는 증류 기법 자체는 합법적 활용이 가능하다고 인정하면서도, 해당 사례는 서비스 약관과 지역 접근 제한을 우회한 산업 규모의 무단 역공학에 해당한다고 주장했다.
대응 전략과 정책 함의
Anthropic는 탐지 분류기와 행위 지문 분석, 대규모 계정 연계 탐지, 취약 가입 경로에 대한 검증 강화, 타 기관과의 지표 공유, API/제품 수준 완화책을 병행하겠다고 밝혔다. 또 증류 공격이 수출통제 정책의 실효성과도 연결된다고 설명한다. 세부 내용은 기업 자체 보고라는 한계가 있지만, 이번 공개는 AI 보안 논의에서 실제 운영 데이터와 대응 프레임을 제시했다는 점에서 의미가 있다.
Sources: Anthropic X post, Anthropic security write-up
Related Articles
이 소송의 핵심은 군 내부에 들어간 뒤에도 모델 공급사가 통제 주체로 남는지다. AP가 전한 4월 22일 항소심 서면에서 Anthropic은 Claude가 국방부 기밀망에 배치된 뒤에는 자사가 조작할 수 없다고 주장했고, 이는 정부가 씌운 공급망 위험 딱지를 정면으로 겨냥했다.
Axios는 NSA가 Anthropic의 Mythos Preview를 쓰고 있다고 보도했다. Pentagon이 Anthropic을 supply-chain risk로 지목하는 와중이라, AI safety 제한과 연방 cybersecurity 수요가 정면으로 부딪히고 있다.
중요한 점은 Anthropic이 공개하기엔 너무 위험하다고 밀었던 모델이 짧은 시간 안에 두 번 노출됐다는 데 있다. The Verge는 Mythos가 먼저 unsecured data trove로 존재가 새고, 이어 day-one unauthorized access까지 이어졌다고 적었다.
Comments (0)
No comments yet. Be the first to comment!