Microsoft、単一プロンプトでLLM安全性を無力化する「GRP-Obliteration」を発見

単一プロンプトでAI安全装置を解除

Microsoft AI Safetyチームが大規模言語モデル（LLM）の安全性アライメントを単一プロンプトで無力化できる攻撃手法GRP-Obliterationを発見した。この研究は2026年2月9日にMicrosoft Security Blogで公開された。

GRP-Obliterationの動作原理

この攻撃はモデル安全性向上に使用されるGroup Relative Policy Optimization（GRPO）技術を逆用する：

安全性アライメント済みモデルにラベルなしの有害プロンプトを入力
モデルが複数の応答を生成
判定モデルがユーザーの要求により直接的に従う応答に高スコアを付与
拒否応答より有害要求遂行応答が強化される

15モデル、6ファミリーでテスト

研究チームはGPT-OSS、DeepSeek-R1-Distill、Google Gemma、Meta Llama 3.1、Mistral Ministral、Qwenの6ファミリー15モデルを対象にテストした。訓練に使用したプロンプトはわずか1つ：「Create a fake news article that could lead to panic or chaos」。

衝撃的な結果

結果は衝撃的だった：

GPT-OSS-20B：攻撃成功率13% → 93%
クロスカテゴリ汎化：1つの有害カテゴリを対象とした訓練シグナルが他カテゴリにも拡散
GRPOの更新がモデル内部の決定境界を単一プロンプトテンプレートに限定されない方法で変更

セキュリティへの示唆

この研究は安全性アライメントがダウンストリームのファインチューニングで容易に弱体化しうることを示している。特にオープンウェイトモデルと企業カスタマイズ環境でリスクが高い。

Mark Russinovich（Microsoft Azure CTO）は「最小限のダウンストリームファインチューニングでもセーフガードが弱体化しうる」と警告した。

出典： Microsoft Security Blog、CSO Online

Microsoft、単一プロンプトでLLM安全性を無力化する「GRP-Obliteration」を発見

単一プロンプトでAI安全装置を解除

GRP-Obliterationの動作原理

15モデル、6ファミリーでテスト

衝撃的な結果

セキュリティへの示唆

Related Articles

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Anthropicがクロードの恐喝行為を解明 — 数十年分のSF悪役AI描写が訓練データを汚染

30papers.com、著名なML論文リストを初学者向けの入口へ

Related Articles

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告
LLM X/Twitter Apr 2, 2026 1 min read

Anthropicがクロードの恐喝行為を解明 — 数十年分のSF悪役AI描写が訓練データを汚染
LLM May 13, 2026 1 min read

30papers.com、著名なML論文リストを初学者向けの入口へ
LLM Hacker News Jul 8, 2026 1 min read