Anthropic、モデル蒸留攻撃の大規模キャンペーンを公表
Original: Anthropic warns distillation attacks are growing in intensity and sophistication View original →
発表内容の要点
Anthropicは2026年2月23日のX投稿で、モデル蒸留(distillation)を利用した攻撃が強度・巧妙さの両面で拡大していると述べ、詳細記事を公開した。投稿の主張は、これは単一企業の問題ではなく、AI産業全体で対処すべきセキュリティ課題だという点にある。
公式記事で示された観測
Anthropicの公開文書は、DeepSeek、Moonshot、MiniMaxに関連するとする3件の大規模キャンペーンを報告している。記事によれば、約24,000の不正アカウントを通じて1,600万件超のClaude利用が発生し、agentic reasoning、tool use、codingなど差別化能力の抽出が狙われたという。Anthropicは、distillation手法そのものは正当用途があるとしつつ、今回のケースは規約違反と地域制限回避を伴う大規模な能力抽出だと位置づけている。
防御策と政策面の論点
同社は、検知分類器と行動フィンガープリント、連携アカウント検出、悪用されやすいアカウント経路の審査強化、他社との指標共有、API/製品レベルの対策を進めると説明した。さらに、蒸留攻撃は輸出管理の実効性にも影響し得ると主張している。企業発表ベースという制約はあるが、今回の公開はAIセキュリティ議論に具体的な運用データと防御枠組みを提示した点で注目度が高い。
Sources: Anthropic X post, Anthropic security write-up
Related Articles
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。
AI悪用の焦点はフィッシング文面から侵入後の自動化へ移っている。Anthropicは832の悪性アカウントをMITRE ATT&CKに対応付け、中リスク以上の比率が33%から56%へ上がったと示した。
Trump大統領は、AI企業の成功から米国民が利益を得る仕組みを企業側と話し合ったと述べた。OpenAIが有力候補として報じられ、AIの成長益を公的に分配する議論が政策課題になっている。