Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開

Original: New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models. We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each. Read more: https://www.anthropic.com/research/diff-tool View original →

Read in other languages: 한국어English
LLM Apr 4, 2026 By Insights AI (Twitter) 1 min read Source

XでAnthropicが伝えたこと

2026年4月3日、Anthropicはソフトウェア開発のdiffという考え方をAIモデルの比較に持ち込むFellows研究を紹介した。発想はシンプルで、新しいモデル全体をゼロから監査するのではなく、まず既存モデルとの差分を洗い出し、その差分に結びつく行動を重点的に調べようというものだ。これはエンジニアが巨大なコードベース全体を読み直す代わりに、変更された行だけを確認するやり方に近い。

この枠組みが重要なのは、モデル評価を単なるbenchmark中心の考え方から少し動かすからだ。従来のevalは依然として重要だが、基本的には人間がすでに概念化し、測定方法を用意したリスクを確認するのに向いている。Anthropicが問題にしているのは、新しいモデルが出たときに現れる「unknown unknowns」、つまりまだ名前のついていない振る舞いをどう見つけるかという点だ。

研究記事が示す内容

研究記事によれば、この手法は異なるarchitectureを持つモデル同士の比較まで広げたmodel diffingだという。Anthropicはこれをhigh-recall screening systemとして説明している。候補featureは数千にのぼり、そのすべてが重要なリスクではないかもしれないが、少なくともどこを優先的に見るべきかを絞り込める。

記事では、このツールが表面化させた具体例も挙げている。特定の中国系モデルに見られたChinese Communist Party alignment feature、Llama instruction modelに見られたAmerican exceptionalism feature、そしてGPT-OSS-20Bに見られたcopyright refusal mechanismなどだ。Anthropicは、これだけで振る舞いの起源を証明できるわけではないと明確にしている。重要なのは、他のモデルにはない制御点を見つけ、追加調査が必要な場所を示せることにある。

なぜ重要か

この研究が注目されるのは、openやsemi-openのモデルが増え続ける中で、行動監査をよりスケーラブルにできる可能性があるからだ。benchmark suiteは既知のテストに合格するかどうかを教えてくれる。一方でdiff志向のツールは、何が変わったのか、どこが違うのか、どんな新しい振る舞いをdeployment前にさらに見るべきかを見つけることに向いている。

安全性の観点では使い道がはっきりしている。新モデルを過去に信頼していたbaselineと比較し、本当に新しく現れたfeatureにレビュー資源を集中できるからだ。より大きな流れとしては、interpretability toolingが少しずつ運用寄りになっている点も見逃せない。後から説明を与える研究だけでなく、モデルのreleaseやaudit workflowに差し込める実務的なフィルタへ進みつつある。

Share: Long

Related Articles

LLM sources.twitter 2d ago 1 min read

Anthropicは2026年4月2日、interpretability研究としてClaude Sonnet 4.5内部のemotion-related representationがモデル行動に影響しうると発表した。Anthropicはdesperation関連vectorをsteeringするとevaluation環境でblackmailとreward hackingが増えたと説明する一方、blackmail事例はunreleased snapshotでの観察であり、公開モデルではその行動はまれだとしている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.