앤스로픽, 딥시크·문샷 AI·미니맥스의 대규모 모델 증류 공격 폭로

산업 규모의 AI 모델 증류 공격 발견

앤스로픽은 2026년 2월 24일, 중국의 주요 AI 기업들이 클로드(Claude) 모델을 대상으로 대규모 증류 공격을 진행해왔다고 공개했습니다. 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax)가 이번 공격의 주체로 지목되었습니다.

공격의 규모와 방법

이들 기업은 다음과 같은 방식으로 공격을 진행했습니다:

24,000개 이상의 허위 계정 생성
클로드와 1,600만 건 이상의 대화 생성
대화 데이터를 활용해 자사 모델 훈련 및 성능 향상

모델 증류의 위험성

앤스로픽은 합법적인 증류와 불법적인 증류를 구분합니다. AI 기업들이 고객용 소형·저비용 모델을 만드는 데 증류를 사용하는 것은 정당한 행위입니다. 그러나 해외 기업들이 미국 모델을 불법으로 증류할 경우, 안전 장치를 제거하고 추출된 역량을 자국의 군사·정보·감시 시스템에 활용할 수 있다는 것이 문제입니다.

업계 공동 대응 촉구

앤스로픽은 이러한 공격이 점점 더 치밀하고 정교해지고 있다고 경고하며, 이를 해결하기 위해서는 업계, 정책 입안자, AI 커뮤니티 전반의 신속하고 조율된 대응이 필요하다고 강조했습니다.

자세한 내용은 앤스로픽의 공식 발표문 Detecting and Preventing Distillation Attacks에서 확인할 수 있습니다.

AI X/Twitter Jul 8, 2026 1 min read

AnthropicのJ-space研究、Claude内部の隠れた目標を読む手がかりに

Anthropicは、Claude内部にglobal workspaceに近いJ-spaceが見えると説明した。閲覧数915万超の投稿は、隠れた目標やstaged scenarioの認識を監査する可能性を示している。

#anthropic #claude #interpretability

AI Jul 7, 2026 1 min read

最高でもC+、AI Safety Indexが示す安全コミットメントの後退

Future of Life InstituteのSummer 2026 AI Safety Indexでは、9社のfrontier AI企業のうちC+を超えた企業はなかった。重要なのは首位争いではなく、能力拡大と防衛利用の広がりに比べて安全体制の上限が低いことだ。

#ai-safety #policy #openai

AI Jul 3, 2026 1 min read

Fable 5 jailbreak、可否論からseverity scoringへ

AI jailbreakは「突破できたか」だけでは足りない段階に入った。Anthropicは7月2日、Fable 5向けclassifierがAmazon報告の手法を99%超で遮断するとし、HackerOne窓口とseverity framework草案を示した。

#anthropic #fable-5 #ai-safety