Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開
Original: New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://www.anthropic.com/research/diff-tool View original →
XでAnthropicが伝えたこと
2026年4月3日、Anthropicはソフトウェア開発のdiffという考え方をAIモデルの比較に持ち込むFellows研究を紹介した。発想はシンプルで、新しいモデル全体をゼロから監査するのではなく、まず既存モデルとの差分を洗い出し、その差分に結びつく行動を重点的に調べようというものだ。これはエンジニアが巨大なコードベース全体を読み直す代わりに、変更された行だけを確認するやり方に近い。
この枠組みが重要なのは、モデル評価を単なるbenchmark中心の考え方から少し動かすからだ。従来のevalは依然として重要だが、基本的には人間がすでに概念化し、測定方法を用意したリスクを確認するのに向いている。Anthropicが問題にしているのは、新しいモデルが出たときに現れる「unknown unknowns」、つまりまだ名前のついていない振る舞いをどう見つけるかという点だ。
研究記事が示す内容
研究記事によれば、この手法は異なるarchitectureを持つモデル同士の比較まで広げたmodel diffingだという。Anthropicはこれをhigh-recall screening systemとして説明している。候補featureは数千にのぼり、そのすべてが重要なリスクではないかもしれないが、少なくともどこを優先的に見るべきかを絞り込める。
記事では、このツールが表面化させた具体例も挙げている。特定の中国系モデルに見られたChinese Communist Party alignment feature、Llama instruction modelに見られたAmerican exceptionalism feature、そしてGPT-OSS-20Bに見られたcopyright refusal mechanismなどだ。Anthropicは、これだけで振る舞いの起源を証明できるわけではないと明確にしている。重要なのは、他のモデルにはない制御点を見つけ、追加調査が必要な場所を示せることにある。
なぜ重要か
この研究が注目されるのは、openやsemi-openのモデルが増え続ける中で、行動監査をよりスケーラブルにできる可能性があるからだ。benchmark suiteは既知のテストに合格するかどうかを教えてくれる。一方でdiff志向のツールは、何が変わったのか、どこが違うのか、どんな新しい振る舞いをdeployment前にさらに見るべきかを見つけることに向いている。
安全性の観点では使い道がはっきりしている。新モデルを過去に信頼していたbaselineと比較し、本当に新しく現れたfeatureにレビュー資源を集中できるからだ。より大きな流れとしては、interpretability toolingが少しずつ運用寄りになっている点も見逃せない。後から説明を与える研究だけでなく、モデルのreleaseやaudit workflowに差し込める実務的なフィルタへ進みつつある。
Related Articles
AnthropicがClaudeの行動指針を定めた「Claude's Constitution(Claudeの憲法)」をオーディオブック化し公開した。著者のAmanda AskellとJoe Carlsmithが直接朗読し、文書の哲学的背景やAIの進化に伴う変化可能性について語るQ&Aも収録されている。
HNで注目されたのは「Claudeがバグを見つける」話だけでなく、各チームが自分の対象に合わせて作り替えるharnessの形だった。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。