AnthropicのIA研究、LoRA 1枚でバックドアと隠れた逸脱を言語化し監査へつなぐ実装路線とは
Original: In new Anthropic Fellows research, we discuss “introspection adapters": a tool that allows language models to self-report behaviors they've … View original →
回り道ではなく、モデルに直接しゃべらせる
微調整のあとでモデルが何を学んだのかを調べる作業は、いまも推測が多い。Anthropic Fellowsの新研究はそこにかなり直球の道具を出してきた。4月29日のX投稿でAnthropicは、学習中に身についた挙動をモデル自身に説明させる "introspection adapter" を紹介し、hidden misalignmentやbackdoor、safeguard removalのような問題まで拾えると書いた。
"We train a single Introspection Adapter (IA) that makes fine-tuned models describe their behaviors."
リンク先のAlignment Science記事によれば、やり方は共有LoRAアダプタを軸にした二段構えだ。まず複数のモデルに既知の挙動を埋め込み、次にそれら全体に共通するIAを学習させる。あとからそのIAを付けて自然言語で問いかけると、モデルが自分の学んだ性質を言葉で説明するようになる。Anthropicはこの方法が、56モデル・14種類の懸念行動からなるAuditBenchでstate-of-the-artを出し、見た目は無害なデータに危険挙動を埋め込むcovert fine-tuning attackもあぶり出せたとしている。
LoRA型の監査ツールが持つ実務的な意味
面白いのは、全面的な再学習や重い解釈可能性パイプラインを前提にしていないことだ。LoRAなので形としては軽く、監査用ツールレイヤーのように扱える。記事ではQwen3系モデルで、verbalization rateが0.6Bでは37.7%、14Bでは77.3%まで伸び、IAなしの自己申告率は10%未満にとどまったと報告している。さらに、後から埋め込んだ挙動だけでなく、base modelにもともと存在した挙動に対しても一定の検出力を見せた。
Anthropicの公式アカウントは、のちに安全性やデプロイの議論へつながる評価研究を先に出すことが多い。だからこの投稿は論文紹介というより、今後のfine-tuning APIや内部安全評価がどんな道具を採るかを示す先触れとして読むべきだろう。次に見るべきは、このIAが実際の運用パイプラインに入るか、そして外部研究者も同じ方法で隠れた挙動を再現性よく監査できるかだ。 Source: Anthropic source tweet · Anthropic alignment post
Related Articles
モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。
Comments (0)
No comments yet. Be the first to comment!