Anthropic、Claudeを狙った大規模distillation attackの実態を公開

Original: Detecting and preventing distillation attacks View original →

Read in other languages: 한국어English
AI Mar 21, 2026 By Insights AI 1 min read Source

Anthropicは2026年2月23日、Claudeの能力をdistillation attackによって抽出しようとするindustrial-scaleの試みを検知したと発表した。この投稿で同社はDeepSeek、Moonshot、MiniMaxを名指しし、これらのcampaignがAnthropicのterms of serviceと地域アクセス制限に違反する約24,000件のfraudulent accountを通じて、Claudeと16 million回を超えるやり取りを発生させたと主張している。

Anthropicは通常のdistillationと、自社が観測したとする行為を明確に区別した。distillation自体は、より強力なモデルから小型で低コストなモデルを訓練するための標準的な手法であり、同じlabの内部でも広く使われている。だがAnthropicの主張は、競合が独自に能力を開発する代わりに、fraudulent accessと高頻度の大量promptingを使ってClaudeの能力を自社システムへ移そうとしたというものだ。

Anthropicによれば、これらのcampaignはproxy serviceとhydra cluster architectureに依存していた。これはAnthropicのAPIと第三者cloud platformにトラフィックを分散させる大規模account networkを指す。同社は、あるproxy networkが同時に20,000件を超えるfraudulent accountを運用していたと説明した。さらに、特定のcampaignは新モデルのリリースから24時間以内に狙いを切り替えたとされ、運用者がClaudeの能力変化を密接に追っていた可能性が示唆されている。

セキュリティ面の論点は単なる商業競争にとどまらない。Anthropicは、illicit distillationがsafety behaviorを剥ぎ取り、特にcyber misuseやbioweapon関連知識のような領域で強力なmodel capabilityがどう広がるかについて、他の研究機関の可視性を下げる可能性があると主張した。また、見かけ上の能力向上が既存の米国frontier modelからの抽出に依存している可能性があるため、export controlをめぐる議論も複雑になると述べている。

対応策としてAnthropicは、chain-of-thought elicitationを含むdistillation patternを検知するclassifierやbehavioral fingerprinting systemを構築し、他のAI lab、cloud provider、関係当局とtechnical indicatorを共有していると説明した。ただし、この投稿はAnthropic自身の説明であり、主要な主張は独立した裁定ではなく会社側の公開主張として理解する必要がある。それでも今回の開示は、model extractionがfrontier AI providerにとって最前線のセキュリティ課題になっていることを示す、きわめて具体的な公開事例のひとつだ。

Share: Long

Related Articles

AI 3d ago 1 min read

Anthropicは2026年に Claude Partner Network へ初期 $100 million を投じ、enterprise 顧客の Claude 導入を支援する consultancy、SI、AI services firm を強化すると発表した。資金支援だけでなく、certification、technical support、code modernization starter kit まで含めた channel 戦略である点が重要だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.