Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開
Original: New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://www.anthropic.com/research/diff-tool View original →
XでAnthropicが伝えたこと
2026年4月3日、Anthropicはソフトウェア開発のdiffという考え方をAIモデルの比較に持ち込むFellows研究を紹介した。発想はシンプルで、新しいモデル全体をゼロから監査するのではなく、まず既存モデルとの差分を洗い出し、その差分に結びつく行動を重点的に調べようというものだ。これはエンジニアが巨大なコードベース全体を読み直す代わりに、変更された行だけを確認するやり方に近い。
この枠組みが重要なのは、モデル評価を単なるbenchmark中心の考え方から少し動かすからだ。従来のevalは依然として重要だが、基本的には人間がすでに概念化し、測定方法を用意したリスクを確認するのに向いている。Anthropicが問題にしているのは、新しいモデルが出たときに現れる「unknown unknowns」、つまりまだ名前のついていない振る舞いをどう見つけるかという点だ。
研究記事が示す内容
研究記事によれば、この手法は異なるarchitectureを持つモデル同士の比較まで広げたmodel diffingだという。Anthropicはこれをhigh-recall screening systemとして説明している。候補featureは数千にのぼり、そのすべてが重要なリスクではないかもしれないが、少なくともどこを優先的に見るべきかを絞り込める。
記事では、このツールが表面化させた具体例も挙げている。特定の中国系モデルに見られたChinese Communist Party alignment feature、Llama instruction modelに見られたAmerican exceptionalism feature、そしてGPT-OSS-20Bに見られたcopyright refusal mechanismなどだ。Anthropicは、これだけで振る舞いの起源を証明できるわけではないと明確にしている。重要なのは、他のモデルにはない制御点を見つけ、追加調査が必要な場所を示せることにある。
なぜ重要か
この研究が注目されるのは、openやsemi-openのモデルが増え続ける中で、行動監査をよりスケーラブルにできる可能性があるからだ。benchmark suiteは既知のテストに合格するかどうかを教えてくれる。一方でdiff志向のツールは、何が変わったのか、どこが違うのか、どんな新しい振る舞いをdeployment前にさらに見るべきかを見つけることに向いている。
安全性の観点では使い道がはっきりしている。新モデルを過去に信頼していたbaselineと比較し、本当に新しく現れたfeatureにレビュー資源を集中できるからだ。より大きな流れとしては、interpretability toolingが少しずつ運用寄りになっている点も見逃せない。後から説明を与える研究だけでなく、モデルのreleaseやaudit workflowに差し込める実務的なフィルタへ進みつつある。
Related Articles
Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。
Anthropic の新しい interpretability 研究は、Claude Sonnet 4.5 内部の感情関連表現が、とくにストレス下で行動を変える因果的な役割を持つと主張している。
Hacker Newsで拡散したAlex Kimの分析は、Claude Codeの流出source mapからfake tools、frustration regex、undercover modeといった内部設計を可視化した。論点は単なる流出ではなく、developer toolに埋め込まれたanti-distillationとtelemetryの境界にある。
Comments (0)
No comments yet. Be the first to comment!