Google DeepMind、Gemma Scope 2を公開: Gemma 3全モデル向けinterpretabilityツールをオープン拡張

発表の要点

Google DeepMindは、LLMの内部挙動を解析するためのオープンツール群Gemma Scope 2を公開した。対象はGemma 3ファミリー全体（270M〜27B parameters）で、大規模モデルでのみ現れやすいemergent behaviorの検証まで含めて研究範囲を拡張した形だ。元記事の公開日はDecember 19, 2025で、ページの更新時刻は2026-02-16と表示されている。

技術的な更新点

Gemma Scope 2はsparse autoencoders（SAEs）とtranscodersを組み合わせ、内部表現と出力行動の対応を追跡する。DeepMindによれば、Gemma 3の全レイヤーでSAEsとtranscodersを学習し、skip-transcodersとcross-layer transcodersを導入して多段の内部計算をより読み解きやすくした。さらにMatryoshka training techniqueを採用し、概念抽出の有用性改善と既存ツールの課題修正を進めたとしている。

加えて、chat向けモデルの解析機能として、jailbreak、refusal mechanism、chain-of-thought faithfulnessの調査を支援する構成を含む。Neuronpedia上のinteractive demoとtechnical paperも公開され、外部研究者が再現・検証しやすい導線が用意された。

インパクト

DeepMindは本件をAI labとして最大規模のopen-source interpretability releaseと位置づける。公開値として約110 Petabytesの保存データと1 trillion+の総学習パラメータが示されており、LLM安全性研究の共通基盤が一段広がる。特にagent運用の信頼性が重要になる局面で、評価スコアだけでなく内部メカニズムを監査・デバッグできる環境を公開エコシステムに提供した点は、実務的にも政策的にも意味が大きい。

Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

Google DeepMind、Gemma Scope 2を公開: Gemma 3全モデル向けinterpretabilityツールをオープン拡張

発表の要点

技術的な更新点

インパクト

Related Articles

DebianのLLM利用投票、禁止か条件付き許容か

Anthropic、AIモデル間の行動差分を見つける“diff”ツールを公開

Steerling-8B：生成するすべてのトークンを説明できる初の「本質的に解釈可能なLLM」