Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장
Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →
무슨 일이 발표됐나
Google DeepMind는 Gemma Scope 2를 공개하며 LLM 내부 동작을 분석하는 오픈 interpretability 툴셋을 확장했다. 이번 릴리스는 Gemma 3 계열 전체(270M~27B parameters)를 대상으로 하며, 모델 규모가 커질수록 나타나는 emergent behavior까지 연구할 수 있도록 범위를 넓힌 것이 핵심이다. 발표문 기준 게시일은 December 19, 2025이며, 페이지 수정 시각은 2026-02-16로 표시된다.
핵심 기술 포인트
Gemma Scope 2는 sparse autoencoders(SAEs)와 transcoders를 결합해 모델의 내부 표현과 행위를 연결해 해석하도록 설계됐다. DeepMind는 전 레이어 수준에서 SAEs와 transcoders를 학습했고, skip-transcoders 및 cross-layer transcoders를 포함해 다단계 계산 과정을 더 잘 추적할 수 있도록 구성했다고 설명했다. 또한 Matryoshka training technique을 적용해 유용한 개념 포착 성능을 개선했다고 밝혔다.
안전 측면에서는 jailbreaks, hallucinations, sycophancy 같은 문제를 더 정밀하게 관찰하고, chat-tuned Gemma 3 모델에서 refusal behavior 및 chain-of-thought faithfulness 분석을 지원하는 도구를 포함했다. 연구자는 Neuronpedia의 interactive demo를 통해 feature를 탐색할 수 있고, 기술 문서도 함께 확인할 수 있다.
왜 중요한가
DeepMind는 이번 공개를 'AI lab 기준 최대 규모 open-source interpretability release'라고 설명했다. 공개 수치로는 약 110 Petabytes의 저장 데이터와 1 trillion+ 총 학습 파라미터가 제시됐다. 이는 frontier LLM 안전성 연구에서 재현 가능한 도구 기반을 넓혀, 모델 감사(audit)와 디버깅을 실무에 더 가깝게 가져오는 신호로 해석할 수 있다. 특히 agent behavior를 내부 기작 수준에서 확인하려는 수요가 커지는 상황에서, 모델 성능 경쟁과 함께 안전 연구 인프라를 공개 생태계로 확장했다는 점이 이번 발표의 정책적·기술적 의미다.
Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.