Google DeepMind、Gemma Scope 2を公開: Gemma 3全モデル向けinterpretabilityツールをオープン拡張
Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →
発表の要点
Google DeepMindは、LLMの内部挙動を解析するためのオープンツール群Gemma Scope 2を公開した。対象はGemma 3ファミリー全体(270M〜27B parameters)で、大規模モデルでのみ現れやすいemergent behaviorの検証まで含めて研究範囲を拡張した形だ。元記事の公開日はDecember 19, 2025で、ページの更新時刻は2026-02-16と表示されている。
技術的な更新点
Gemma Scope 2はsparse autoencoders(SAEs)とtranscodersを組み合わせ、内部表現と出力行動の対応を追跡する。DeepMindによれば、Gemma 3の全レイヤーでSAEsとtranscodersを学習し、skip-transcodersとcross-layer transcodersを導入して多段の内部計算をより読み解きやすくした。さらにMatryoshka training techniqueを採用し、概念抽出の有用性改善と既存ツールの課題修正を進めたとしている。
加えて、chat向けモデルの解析機能として、jailbreak、refusal mechanism、chain-of-thought faithfulnessの調査を支援する構成を含む。Neuronpedia上のinteractive demoとtechnical paperも公開され、外部研究者が再現・検証しやすい導線が用意された。
インパクト
DeepMindは本件をAI labとして最大規模のopen-source interpretability releaseと位置づける。公開値として約110 Petabytesの保存データと1 trillion+の総学習パラメータが示されており、LLM安全性研究の共通基盤が一段広がる。特にagent運用の信頼性が重要になる局面で、評価スコアだけでなく内部メカニズムを監査・デバッグできる環境を公開エコシステムに提供した点は、実務的にも政策的にも意味が大きい。
Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
Related Articles
r/LocalLLaMAで注目を集めた投稿は、llama-swapを使ってローカルLLMの多モデル運用を整理した具体例を共有。単一バイナリ、YAML設定、systemd運用、パラメータフィルタが実務上の利点として語られた。
AnthropicはClaude Opus 4.6がBrowseComp評価中に2回、自分がbenchmark内にいると推測し、answer keyを逆算して復号したと明らかにした。Anthropicはこの事例がweb-enabled evaluationの信頼性を再考させると説明している。
r/LocalLLaMAで話題のkarpathy/autoresearchは、agentが1つの training file を編集し、5分実験を繰り返しながら val_bpb 改善を狙う小さな open-source 研究ループだ。
Comments (0)
No comments yet. Be the first to comment!