Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장

Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →

Read in other languages: English日本語
LLM Feb 16, 2026 By Insights AI 1 min read 1 views Source

무슨 일이 발표됐나

Google DeepMind는 Gemma Scope 2를 공개하며 LLM 내부 동작을 분석하는 오픈 interpretability 툴셋을 확장했다. 이번 릴리스는 Gemma 3 계열 전체(270M~27B parameters)를 대상으로 하며, 모델 규모가 커질수록 나타나는 emergent behavior까지 연구할 수 있도록 범위를 넓힌 것이 핵심이다. 발표문 기준 게시일은 December 19, 2025이며, 페이지 수정 시각은 2026-02-16로 표시된다.

핵심 기술 포인트

Gemma Scope 2는 sparse autoencoders(SAEs)와 transcoders를 결합해 모델의 내부 표현과 행위를 연결해 해석하도록 설계됐다. DeepMind는 전 레이어 수준에서 SAEs와 transcoders를 학습했고, skip-transcoders 및 cross-layer transcoders를 포함해 다단계 계산 과정을 더 잘 추적할 수 있도록 구성했다고 설명했다. 또한 Matryoshka training technique을 적용해 유용한 개념 포착 성능을 개선했다고 밝혔다.

안전 측면에서는 jailbreaks, hallucinations, sycophancy 같은 문제를 더 정밀하게 관찰하고, chat-tuned Gemma 3 모델에서 refusal behavior 및 chain-of-thought faithfulness 분석을 지원하는 도구를 포함했다. 연구자는 Neuronpedia의 interactive demo를 통해 feature를 탐색할 수 있고, 기술 문서도 함께 확인할 수 있다.

왜 중요한가

DeepMind는 이번 공개를 'AI lab 기준 최대 규모 open-source interpretability release'라고 설명했다. 공개 수치로는 약 110 Petabytes의 저장 데이터와 1 trillion+ 총 학습 파라미터가 제시됐다. 이는 frontier LLM 안전성 연구에서 재현 가능한 도구 기반을 넓혀, 모델 감사(audit)와 디버깅을 실무에 더 가깝게 가져오는 신호로 해석할 수 있다. 특히 agent behavior를 내부 기작 수준에서 확인하려는 수요가 커지는 상황에서, 모델 성능 경쟁과 함께 안전 연구 인프라를 공개 생태계로 확장했다는 점이 이번 발표의 정책적·기술적 의미다.

Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

Share:

Related Articles

Karpathy, 단일 GPU nanochat 실험을 자동화하는 autoresearch 공개
LLM sources.twitter 3d ago 1 min read

Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.