Anthropic、Claudeを狙った大規模distillation attackの実態を公開

Anthropicは2026年2月23日、Claudeの能力をdistillation attackによって抽出しようとするindustrial-scaleの試みを検知したと発表した。この投稿で同社はDeepSeek、Moonshot、MiniMaxを名指しし、これらのcampaignがAnthropicのterms of serviceと地域アクセス制限に違反する約24,000件のfraudulent accountを通じて、Claudeと16 million回を超えるやり取りを発生させたと主張している。

Anthropicは通常のdistillationと、自社が観測したとする行為を明確に区別した。distillation自体は、より強力なモデルから小型で低コストなモデルを訓練するための標準的な手法であり、同じlabの内部でも広く使われている。だがAnthropicの主張は、競合が独自に能力を開発する代わりに、fraudulent accessと高頻度の大量promptingを使ってClaudeの能力を自社システムへ移そうとしたというものだ。

Anthropicによれば、これらのcampaignはproxy serviceとhydra cluster architectureに依存していた。これはAnthropicのAPIと第三者cloud platformにトラフィックを分散させる大規模account networkを指す。同社は、あるproxy networkが同時に20,000件を超えるfraudulent accountを運用していたと説明した。さらに、特定のcampaignは新モデルのリリースから24時間以内に狙いを切り替えたとされ、運用者がClaudeの能力変化を密接に追っていた可能性が示唆されている。

セキュリティ面の論点は単なる商業競争にとどまらない。Anthropicは、illicit distillationがsafety behaviorを剥ぎ取り、特にcyber misuseやbioweapon関連知識のような領域で強力なmodel capabilityがどう広がるかについて、他の研究機関の可視性を下げる可能性があると主張した。また、見かけ上の能力向上が既存の米国frontier modelからの抽出に依存している可能性があるため、export controlをめぐる議論も複雑になると述べている。

対応策としてAnthropicは、chain-of-thought elicitationを含むdistillation patternを検知するclassifierやbehavioral fingerprinting systemを構築し、他のAI lab、cloud provider、関係当局とtechnical indicatorを共有していると説明した。ただし、この投稿はAnthropic自身の説明であり、主要な主張は独立した裁定ではなく会社側の公開主張として理解する必要がある。それでも今回の開示は、model extractionがfrontier AI providerにとって最前線のセキュリティ課題になっていることを示す、きわめて具体的な公開事例のひとつだ。

Anthropic、Claudeを狙った大規模distillation attackの実態を公開

Related Articles

Claude Securityがbeta入り、企業コードの検出・検証・修正案を一つの流れに

Claude、金融サービス向け10種のエージェントテンプレートを発表——Vals AIベンチマーク首位

Anthropic、金融サービス向けAIエージェントテンプレート10種を公開

Comments (0)

Leave a Comment