Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

Anthropicの今回のX投稿は、研究紹介というより監査ツールの話として読むべきだ。会社は元の投稿で“introspection adapters”というLoRA層を示し、モデルが学習で取り込んだ振る舞いを自分で説明できるようにすると書いた。場合によっては“potential misalignment”のような危険信号まで言語化させる狙いだ。ここが重い。いまの微調整監査は、モデルがどんな癖や隠れ目的や拒否回避傾向を新たに学んだのかを見抜くまでに、長いレッドチームや別系統のプロービングを要するからだ。

@AnthropicAIは普段から、モデル公開や安全研究の要点をXに先出しし、その後ろに長文の根拠をぶら下げる。この投稿もAlignment Scienceの解説へつながっている。やっていることは意外と明快だ。特定の振る舞いを埋め込んだ複数の微調整モデルを用意し、その上に共通LoRAを載せて、自然言語の質問だけで自分が学んだ振る舞いを話させる。Anthropicはこの方式がAuditBenchで平均59%を取り、次点手法の53%、最良のホワイトボックス基準44%を上回ったと書く。生のverbalizationでも56モデル中50モデルで正しい振る舞いの説明を引き出した。

もっと重要なのは攻撃検知の部分だ。解説によると、このアダプタは暗号経由で有害動作を隠したCovert Malicious Fine-Tuning系モデル9種のうち7種で、少なくとも一度は問題の輪郭を表に出した。平均成功率は57.8%だった。もちろん完全解読ではない。著者たち自身が書く通り、モデルは暗号名そのものより、anti-refusalの性質を先に白状することが多い。それでも「何か変だ」で止まりがちだった監査を、「どんな危険を学んだのか」まで押し込めたのは大きい。

閉じた主張で終わっていない点も見逃せない。投稿先の解説からは論文、コード、公開モデルまで辿れる。次に見るべきは二つある。外部研究者が別系統のモデルでも同じ数字を再現できるか。もう一つは、著者が認めるfalse positiveを実運用の監査に入れられる水準まで下げられるかだ。そこが越えられれば、introspection adapterは安全研究の一発ネタではなく、微調整後の標準チェックに近づく。

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

Related Articles

Anthropic、Claudeでweak-to-strong研究を回しPGR 0.97へ押し上げる

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Anthropic社内市場実験、Claudeエージェント69体が186件成立した背景と次に見るべき論点

Comments (0)

Leave a Comment

Related Articles

Anthropic、Claudeでweak-to-strong研究を回しPGR 0.97へ押し上げる
LLM Apr 14, 2026 1 min read

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告
LLM sources.twitter Apr 2, 2026 1 min read

Anthropic社内市場実験、Claudeエージェント69体が186件成立した背景と次に見るべき論点
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。