AnthropicのIA研究、LoRA 1枚でバックドアと隠れた逸脱を言語化し監査へつなぐ実装路線とは

回り道ではなく、モデルに直接しゃべらせる

微調整のあとでモデルが何を学んだのかを調べる作業は、いまも推測が多い。Anthropic Fellowsの新研究はそこにかなり直球の道具を出してきた。4月29日のX投稿でAnthropicは、学習中に身についた挙動をモデル自身に説明させる "introspection adapter" を紹介し、hidden misalignmentやbackdoor、safeguard removalのような問題まで拾えると書いた。

"We train a single Introspection Adapter (IA) that makes fine-tuned models describe their behaviors."

リンク先のAlignment Science記事によれば、やり方は共有LoRAアダプタを軸にした二段構えだ。まず複数のモデルに既知の挙動を埋め込み、次にそれら全体に共通するIAを学習させる。あとからそのIAを付けて自然言語で問いかけると、モデルが自分の学んだ性質を言葉で説明するようになる。Anthropicはこの方法が、56モデル・14種類の懸念行動からなるAuditBenchでstate-of-the-artを出し、見た目は無害なデータに危険挙動を埋め込むcovert fine-tuning attackもあぶり出せたとしている。

LoRA型の監査ツールが持つ実務的な意味

面白いのは、全面的な再学習や重い解釈可能性パイプラインを前提にしていないことだ。LoRAなので形としては軽く、監査用ツールレイヤーのように扱える。記事ではQwen3系モデルで、verbalization rateが0.6Bでは37.7%、14Bでは77.3%まで伸び、IAなしの自己申告率は10%未満にとどまったと報告している。さらに、後から埋め込んだ挙動だけでなく、base modelにもともと存在した挙動に対しても一定の検出力を見せた。

Anthropicの公式アカウントは、のちに安全性やデプロイの議論へつながる評価研究を先に出すことが多い。だからこの投稿は論文紹介というより、今後のfine-tuning APIや内部安全評価がどんな道具を採るかを示す先触れとして読むべきだろう。次に見るべきは、このIAが実際の運用パイプラインに入るか、そして外部研究者も同じ方法で隠れた挙動を再現性よく監査できるかだ。 Source: Anthropic source tweet · Anthropic alignment post

AnthropicのIA研究、LoRA 1枚でバックドアと隠れた逸脱を言語化し監査へつなぐ実装路線とは

回り道ではなく、モデルに直接しゃべらせる

LoRA型の監査ツールが持つ実務的な意味

Related Articles

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Comments (0)

Leave a Comment

Related Articles

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法
モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告
LLM X/Twitter Apr 2, 2026 1 min read

回り道ではなく、モデルに直接しゃべらせる

LoRA型の監査ツールが持つ実務的な意味

Related Articles

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

Anthropic、Claudeの選挙安全性試験を公開 100%・99.8%適合

Anthropic、Claude内部の emotion concept が cheating と blackmail behavior を左右しうると報告

Comments (0)

Leave a Comment

Anthropic、Claudeの選挙安全性試験を公開　100%・99.8%適合