重要なのは、モデル模倣を巡る争いがロビー活動や企業同士の応酬では終わらなくなったことだ。Reutersは4月26日、米国務省が世界の在外公館に対し、DeepSeekを含む中国AI企業の蒸留疑惑を各国政府へ伝えるよう指示したと報じた。
#distillation
RSS Feed今回のメモで、モデル蒸留は利用規約違反の話から国家安全保障レベルの技術窃取へ格上げされた。ホワイトハウスは、中国などの外国主体が数万規模のプロキシと jailbreaking 手法で米国の frontier AI を吸い出し、はるかに安いコストで一部ベンチマーク上は競合に見える製品を出せると警告した。
synthetic dataで別モデルを訓練する流れに、見えにくい安全リスクが加わった。Nature論文は、owl preferenceやmisalignmentのようなtraitが意味上は無関係な数列からstudent modelへ移る場合を示した。
Lightning OPDは、reasoning model post-trainingでlive teacher inference serverを動かし続けるコストに切り込む。4月14日のarXiv paperは、Qwen3-8B-BaseからAIME 2024 69.9%へ30 GPU hoursで到達し、standard OPD比4.0x speedupだったと報告している。
AnthropicはDeepSeek、Moonshot、MiniMaxがClaudeの出力を大規模に抽出しようとするindustrial-scale campaignを検知したと発表した。同社は約24,000件のfraudulent accountを通じて16 million回超のやり取りがあったとし、検知と対応のtoolingに投資していると説明している。
2026年3月19日にHacker Newsへ投稿されたNanoGPT Slowrunスレッドは、クロール時点で162ポイントと43件のコメントを集めた。Q Labsは、100M tokenで学習した1.8B parameter ensembleが通常1B tokenを要するbaselineに匹敵したと主張している。
Q Labsは100M tokensと18B-parameter ensembleで1B-token baselineに匹敵すると主張し、Hacker Newsではその利得が serving と deployment まで成立するのかがすぐに論点になった。
r/LocalLLaMAで人気を集めたこの投稿は、uncensored変更とreasoning distillationを組み合わせたQwen 3.5 9Bのコミュニティ実験を取り上げ、小型ローカルモデル調整の関心を映し出した。
AnthropicはClaudeを狙うdistillation攻撃の高度化を警告し、業界と政策当局の連携対応を求めた。関連する公式記事では、攻撃規模や検知・防御方針が具体的に示されている。
AnthropicがDeepSeek、Moonshot AI(Kimi)、MiniMaxの3社が24,000件以上の不正Claudeアカウントを作成し、1,600万件の会話から訓練データを無断抽出(distillation)したと告発。AIの知的財産権争いが新たな局面を迎えました。
Anthropicが中国AI企業による2万4,000以上の不正アカウントを使った1,600万件のClaude会話データ抽出攻撃を告発しました。
r/singularityで拡散したArs Technica報道により、Geminiへの10万件超プロンプト試行が話題化し、distillationの正当利用と無断抽出の線引きが再び焦点となった。