Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장

무슨 일이 발표됐나

Google DeepMind는 Gemma Scope 2를 공개하며 LLM 내부 동작을 분석하는 오픈 interpretability 툴셋을 확장했다. 이번 릴리스는 Gemma 3 계열 전체(270M~27B parameters)를 대상으로 하며, 모델 규모가 커질수록 나타나는 emergent behavior까지 연구할 수 있도록 범위를 넓힌 것이 핵심이다. 발표문 기준 게시일은 December 19, 2025이며, 페이지 수정 시각은 2026-02-16로 표시된다.

핵심 기술 포인트

Gemma Scope 2는 sparse autoencoders(SAEs)와 transcoders를 결합해 모델의 내부 표현과 행위를 연결해 해석하도록 설계됐다. DeepMind는 전 레이어 수준에서 SAEs와 transcoders를 학습했고, skip-transcoders 및 cross-layer transcoders를 포함해 다단계 계산 과정을 더 잘 추적할 수 있도록 구성했다고 설명했다. 또한 Matryoshka training technique을 적용해 유용한 개념 포착 성능을 개선했다고 밝혔다.

안전 측면에서는 jailbreaks, hallucinations, sycophancy 같은 문제를 더 정밀하게 관찰하고, chat-tuned Gemma 3 모델에서 refusal behavior 및 chain-of-thought faithfulness 분석을 지원하는 도구를 포함했다. 연구자는 Neuronpedia의 interactive demo를 통해 feature를 탐색할 수 있고, 기술 문서도 함께 확인할 수 있다.

왜 중요한가

DeepMind는 이번 공개를 'AI lab 기준 최대 규모 open-source interpretability release'라고 설명했다. 공개 수치로는 약 110 Petabytes의 저장 데이터와 1 trillion+ 총 학습 파라미터가 제시됐다. 이는 frontier LLM 안전성 연구에서 재현 가능한 도구 기반을 넓혀, 모델 감사(audit)와 디버깅을 실무에 더 가깝게 가져오는 신호로 해석할 수 있다. 특히 agent behavior를 내부 기작 수준에서 확인하려는 수요가 커지는 상황에서, 모델 성능 경쟁과 함께 안전 연구 인프라를 공개 생태계로 확장했다는 점이 이번 발표의 정책적·기술적 의미다.

Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/

Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장

무슨 일이 발표됐나

핵심 기술 포인트

왜 중요한가

Related Articles

Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개

Browser Harness에 HN 반응, "브라우저 도구를 중간에 스스로 고친다"

q8_0이면 거의 공짜라는 통념, LocalLLaMA가 깨뜨린 KV 캐시 데이터

Comments (0)

Leave a Comment

Related Articles

Anthropic, AI 모델 간 행동 차이를 찾는 “diff” 도구 공개
LLM sources.twitter Apr 4, 2026 2 min read

Browser Harness에 HN 반응, "브라우저 도구를 중간에 스스로 고친다"

q8_0이면 거의 공짜라는 통념, LocalLLaMA가 깨뜨린 KV 캐시 데이터