XでAnthropicが伝えたこと

2026年4月3日、Anthropicはソフトウェア開発のdiffという考え方をAIモデルの比較に持ち込むFellows研究を紹介した。発想はシンプルで、新しいモデル全体をゼロから監査するのではなく、まず既存モデルとの差分を洗い出し、その差分に結びつく行動を重点的に調べようというものだ。これはエンジニアが巨大なコードベース全体を読み直す代わりに、変更された行だけを確認するやり方に近い。

この枠組みが重要なのは、モデル評価を単なるbenchmark中心の考え方から少し動かすからだ。従来のevalは依然として重要だが、基本的には人間がすでに概念化し、測定方法を用意したリスクを確認するのに向いている。Anthropicが問題にしているのは、新しいモデルが出たときに現れる「unknown unknowns」、つまりまだ名前のついていない振る舞いをどう見つけるかという点だ。

研究記事が示す内容

研究記事によれば、この手法は異なるarchitectureを持つモデル同士の比較まで広げたmodel diffingだという。Anthropicはこれをhigh-recall screening systemとして説明している。候補featureは数千にのぼり、そのすべてが重要なリスクではないかもしれないが、少なくともどこを優先的に見るべきかを絞り込める。

記事では、このツールが表面化させた具体例も挙げている。特定の中国系モデルに見られたChinese Communist Party alignment feature、Llama instruction modelに見られたAmerican exceptionalism feature、そしてGPT-OSS-20Bに見られたcopyright refusal mechanismなどだ。Anthropicは、これだけで振る舞いの起源を証明できるわけではないと明確にしている。重要なのは、他のモデルにはない制御点を見つけ、追加調査が必要な場所を示せることにある。

なぜ重要か

この研究が注目されるのは、openやsemi-openのモデルが増え続ける中で、行動監査をよりスケーラブルにできる可能性があるからだ。benchmark suiteは既知のテストに合格するかどうかを教えてくれる。一方でdiff志向のツールは、何が変わったのか、どこが違うのか、どんな新しい振る舞いをdeployment前にさらに見るべきかを見つけることに向いている。

安全性の観点では使い道がはっきりしている。新モデルを過去に信頼していたbaselineと比較し、本当に新しく現れたfeatureにレビュー資源を集中できるからだ。より大きな流れとしては、interpretability toolingが少しずつ運用寄りになっている点も見逃せない。後から説明を与える研究だけでなく、モデルのreleaseやaudit workflowに差し込める実務的なフィルタへ進みつつある。

#model-diffing

Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開