Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장
Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →
무슨 일이 발표됐나
Google DeepMind는 Gemma Scope 2를 공개하며 LLM 내부 동작을 분석하는 오픈 interpretability 툴셋을 확장했다. 이번 릴리스는 Gemma 3 계열 전체(270M~27B parameters)를 대상으로 하며, 모델 규모가 커질수록 나타나는 emergent behavior까지 연구할 수 있도록 범위를 넓힌 것이 핵심이다. 발표문 기준 게시일은 December 19, 2025이며, 페이지 수정 시각은 2026-02-16로 표시된다.
핵심 기술 포인트
Gemma Scope 2는 sparse autoencoders(SAEs)와 transcoders를 결합해 모델의 내부 표현과 행위를 연결해 해석하도록 설계됐다. DeepMind는 전 레이어 수준에서 SAEs와 transcoders를 학습했고, skip-transcoders 및 cross-layer transcoders를 포함해 다단계 계산 과정을 더 잘 추적할 수 있도록 구성했다고 설명했다. 또한 Matryoshka training technique을 적용해 유용한 개념 포착 성능을 개선했다고 밝혔다.
안전 측면에서는 jailbreaks, hallucinations, sycophancy 같은 문제를 더 정밀하게 관찰하고, chat-tuned Gemma 3 모델에서 refusal behavior 및 chain-of-thought faithfulness 분석을 지원하는 도구를 포함했다. 연구자는 Neuronpedia의 interactive demo를 통해 feature를 탐색할 수 있고, 기술 문서도 함께 확인할 수 있다.
왜 중요한가
DeepMind는 이번 공개를 'AI lab 기준 최대 규모 open-source interpretability release'라고 설명했다. 공개 수치로는 약 110 Petabytes의 저장 데이터와 1 trillion+ 총 학습 파라미터가 제시됐다. 이는 frontier LLM 안전성 연구에서 재현 가능한 도구 기반을 넓혀, 모델 감사(audit)와 디버깅을 실무에 더 가깝게 가져오는 신호로 해석할 수 있다. 특히 agent behavior를 내부 기작 수준에서 확인하려는 수요가 커지는 상황에서, 모델 성능 경쟁과 함께 안전 연구 인프라를 공개 생태계로 확장했다는 점이 이번 발표의 정책적·기술적 의미다.
Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
Related Articles
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
r/LocalLLaMA에서 화제가 된 karpathy/autoresearch는 에이전트가 하나의 training file을 수정하고 5분 실험을 반복하며 val_bpb를 낮추는 방향으로 탐색하는 소형 open-source 연구 루프다.
Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.
Comments (0)
No comments yet. Be the first to comment!