#model-auditing - Insights

LLM X/Twitter Apr 29, 2026 1 min read

Anthropicの監査LoRA、隠れた微調整攻撃9種中7種を拾う新しい安全監査手法

モデルが微調整で身につけた癖を自分で言語化できれば、監査のコストはかなり下がる。Anthropicは今回のX投稿で、introspection adapterがAuditBenchで平均59%を記録し、暗号化された隠れ攻撃9種のうち7種を浮かび上がらせたと示した。