Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法
Original: In new Anthropic Fellows research, we discuss "introspection adapters": a tool that allows language models to self-report behaviors they've learned during training—including potential misalignment. View original →
Anthropicの今回のX投稿は、研究紹介というより監査ツールの話として読むべきだ。会社は元の投稿で“introspection adapters”というLoRA層を示し、モデルが学習で取り込んだ振る舞いを自分で説明できるようにすると書いた。場合によっては“potential misalignment”のような危険信号まで言語化させる狙いだ。ここが重い。いまの微調整監査は、モデルがどんな癖や隠れ目的や拒否回避傾向を新たに学んだのかを見抜くまでに、長いレッドチームや別系統のプロービングを要するからだ。
@AnthropicAIは普段から、モデル公開や安全研究の要点をXに先出しし、その後ろに長文の根拠をぶら下げる。この投稿もAlignment Scienceの解説へつながっている。やっていることは意外と明快だ。特定の振る舞いを埋め込んだ複数の微調整モデルを用意し、その上に共通LoRAを載せて、自然言語の質問だけで自分が学んだ振る舞いを話させる。Anthropicはこの方式がAuditBenchで平均59%を取り、次点手法の53%、最良のホワイトボックス基準44%を上回ったと書く。生のverbalizationでも56モデル中50モデルで正しい振る舞いの説明を引き出した。
もっと重要なのは攻撃検知の部分だ。解説によると、このアダプタは暗号経由で有害動作を隠したCovert Malicious Fine-Tuning系モデル9種のうち7種で、少なくとも一度は問題の輪郭を表に出した。平均成功率は57.8%だった。もちろん完全解読ではない。著者たち自身が書く通り、モデルは暗号名そのものより、anti-refusalの性質を先に白状することが多い。それでも「何か変だ」で止まりがちだった監査を、「どんな危険を学んだのか」まで押し込めたのは大きい。
閉じた主張で終わっていない点も見逃せない。投稿先の解説からは論文、コード、公開モデルまで辿れる。次に見るべきは二つある。外部研究者が別系統のモデルでも同じ数字を再現できるか。もう一つは、著者が認めるfalse positiveを実運用の監査に入れられる水準まで下げられるかだ。そこが越えられれば、introspection adapterは安全研究の一発ネタではなく、微調整後の標準チェックに近づく。
Related Articles
今回のスレッドは、Claudeを調整対象ではなくalignment研究の実働役として使った点が大きい。Anthropicがリンクした資料では、9体のClaude Opus 4.6が人間ベースラインのPGR 0.23を0.97まで引き上げ、累積研究時間は約800時間だった。
Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。
なぜ重要か。AIエージェントが会話デモから実際の取引代行へ進み始めたからだ。Anthropicは社内マーケット実験で69体のエージェントが500超の出品から186件をまとめ、取引額は4,000ドルを少し超えたと示した。
Comments (0)
No comments yet. Be the first to comment!