이 사안이 커진 이유는 모델 복제 논쟁이 더 이상 로비 문서와 기업 간 공방에 머물지 않기 때문이다. Reuters는 4월 26일 미국 국무부가 전 세계 외교 공관에 DeepSeek를 포함한 중국 AI 기업의 증류 의혹을 외국 정부에 설명하라고 지시했다고 보도했다.
#distillation
RSS Feed이번 메모는 모델 증류를 약관 위반이 아니라 국가안보 성격의 기술 탈취로 끌어올렸다. 백악관은 중국 등 외국 주체가 수만 개 프록시와 jailbreaking 기법으로 미국 frontier AI를 빼내고, 원본보다 훨씬 낮은 비용으로 벤치마크상 비슷해 보이는 모델을 내놓을 수 있다고 경고했다.
LLM이 만든 데이터를 다시 학습시키는 관행에 새 위험 신호가 붙었다. Nature 논문은 owl preference나 misalignment 같은 trait가 의미상 무관한 숫자열을 통해서도 student model에 전이될 수 있다고 보고했다.
Lightning OPD는 reasoning model post-training에서 live teacher inference server가 계속 필요한 병목을 겨냥한다. 4월 14일 arXiv 논문은 Qwen3-8B-Base에서 AIME 2024 69.9%를 30 GPU hours에 도달했고 standard OPD 대비 4.0x speedup을 보였다고 보고했다.
Anthropic은 DeepSeek, Moonshot, MiniMax가 Claude 출력을 대규모로 추출하려는 industrial-scale 캠페인을 탐지했다고 밝혔다. 회사는 약 24,000개의 fraudulent account를 통한 16 million회 이상의 교환이 있었으며 탐지와 대응 도구에 투자하고 있다고 설명했다.
2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.
Q Labs는 100M tokens와 18B-parameter ensemble로 1B-token baseline에 맞먹는 결과를 냈다고 주장했고, Hacker News는 이 성과가 serving과 deployment에서도 유지될 수 있는지 따져 물었다.
r/LocalLLaMA에서 1360 points를 얻은 이 글은 HauhauCS 계열의 uncensored 변경과 Jackrong의 reasoning distillation을 결합한 Qwen 3.5 9B GGUF 실험을 소개하며, 소형 로컬 모델 튜닝의 현재 관심사를 보여줬다.
Anthropic는 Claude를 겨냥한 증류 공격이 고도화되고 있다고 밝히며 업계·정책 공조를 촉구했다. 연결된 공식 글에서는 대규모 악용 패턴과 대응 수단을 구체적으로 제시했다.
Anthropic이 DeepSeek, Moonshot AI(Kimi), MiniMax 등 중국 AI 기업 3곳이 24,000개 이상의 허위 Claude 계정을 생성하고 1,600만 건의 대화에서 훈련 데이터를 무단 추출(distillation)했다고 고발했습니다. Wall Street Journal이 보도한 이번 사건은 AI 업계의 지식재산권 논쟁에 새로운 국면을 열었습니다.
앤트로픽이 중국 AI 기업들이 2만 4,000개 이상의 허위 계정으로 Claude에서 1,600만 건의 훈련 데이터를 무단 추출했다고 고발했습니다.
r/singularity에서 확산된 Ars Technica 보도를 통해, Google이 Gemini 대상 대규모 model extraction 시도를 공개하며 distillation과 지식 도용의 경계가 다시 쟁점이 됐다.