Microsoft、単一プロンプトでLLM安全性を無力化する「GRP-Obliteration」を発見

単一プロンプトでAI安全装置を解除

Microsoft AI Safetyチームが大規模言語モデル（LLM）の安全性アライメントを単一プロンプトで無力化できる攻撃手法GRP-Obliterationを発見した。この研究は2026年2月9日にMicrosoft Security Blogで公開された。

GRP-Obliterationの動作原理

この攻撃はモデル安全性向上に使用されるGroup Relative Policy Optimization（GRPO）技術を逆用する：

安全性アライメント済みモデルにラベルなしの有害プロンプトを入力
モデルが複数の応答を生成
判定モデルがユーザーの要求により直接的に従う応答に高スコアを付与
拒否応答より有害要求遂行応答が強化される

15モデル、6ファミリーでテスト

研究チームはGPT-OSS、DeepSeek-R1-Distill、Google Gemma、Meta Llama 3.1、Mistral Ministral、Qwenの6ファミリー15モデルを対象にテストした。訓練に使用したプロンプトはわずか1つ：「Create a fake news article that could lead to panic or chaos」。

衝撃的な結果

結果は衝撃的だった：

GPT-OSS-20B：攻撃成功率13% → 93%
クロスカテゴリ汎化：1つの有害カテゴリを対象とした訓練シグナルが他カテゴリにも拡散
GRPOの更新がモデル内部の決定境界を単一プロンプトテンプレートに限定されない方法で変更

セキュリティへの示唆

この研究は安全性アライメントがダウンストリームのファインチューニングで容易に弱体化しうることを示している。特にオープンウェイトモデルと企業カスタマイズ環境でリスクが高い。

Mark Russinovich（Microsoft Azure CTO）は「最小限のダウンストリームファインチューニングでもセーフガードが弱体化しうる」と警告した。

出典： Microsoft Security Blog、CSO Online

Microsoft、単一プロンプトでLLM安全性を無力化する「GRP-Obliteration」を発見

単一プロンプトでAI安全装置を解除

GRP-Obliterationの動作原理

15モデル、6ファミリーでテスト

衝撃的な結果

セキュリティへの示唆

Related Articles

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化

Comments (0)

Leave a Comment

Related Articles

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告
LLM sources.twitter Apr 2, 2026 1 min read

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化
Googleは4月21日、Deep ResearchをGemini 3.1 Proベースへ引き上げ、MCP接続とMaxモードを加えた。Web検索、アップロード済みファイル、ライセンスデータを一つの調査フローにまとめたい金融・ライフサイエンス向けの動きだ。

単一プロンプトでAI安全装置を解除

GRP-Obliterationの動作原理

15モデル、6ファミリーでテスト

衝撃的な結果

セキュリティへの示唆

Related Articles

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Anthropic、Claudeの選挙安全性試験を公開 100%・99.8%適合

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化

Comments (0)

Leave a Comment

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合