Google DeepMind、Gemma Scope 2を公開: Gemma 3全モデル向けinterpretabilityツールをオープン拡張

Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →

Read in other languages: 한국어English
LLM Feb 16, 2026 By Insights AI 1 min read Source

発表の要点

Google DeepMindは、LLMの内部挙動を解析するためのオープンツール群Gemma Scope 2を公開した。対象はGemma 3ファミリー全体(270M〜27B parameters)で、大規模モデルでのみ現れやすいemergent behaviorの検証まで含めて研究範囲を拡張した形だ。元記事の公開日はDecember 19, 2025で、ページの更新時刻は2026-02-16と表示されている。

技術的な更新点

Gemma Scope 2はsparse autoencoders(SAEs)とtranscodersを組み合わせ、内部表現と出力行動の対応を追跡する。DeepMindによれば、Gemma 3の全レイヤーでSAEsとtranscodersを学習し、skip-transcodersとcross-layer transcodersを導入して多段の内部計算をより読み解きやすくした。さらにMatryoshka training techniqueを採用し、概念抽出の有用性改善と既存ツールの課題修正を進めたとしている。

加えて、chat向けモデルの解析機能として、jailbreak、refusal mechanism、chain-of-thought faithfulnessの調査を支援する構成を含む。Neuronpedia上のinteractive demoとtechnical paperも公開され、外部研究者が再現・検証しやすい導線が用意された。

インパクト

DeepMindは本件をAI labとして最大規模のopen-source interpretability releaseと位置づける。公開値として約110 Petabytesの保存データと1 trillion+の総学習パラメータが示されており、LLM安全性研究の共通基盤が一段広がる。特にagent運用の信頼性が重要になる局面で、評価スコアだけでなく内部メカニズムを監査・デバッグできる環境を公開エコシステムに提供した点は、実務的にも政策的にも意味が大きい。

Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.