Google DeepMind, Gemma Scope 2 공개: Gemma 3 전 모델 대상 interpretability 툴 오픈소스 확장
Original: Gemma Scope 2: helping the AI safety community deepen understanding of complex language model behavior View original →
무슨 일이 발표됐나
Google DeepMind는 Gemma Scope 2를 공개하며 LLM 내부 동작을 분석하는 오픈 interpretability 툴셋을 확장했다. 이번 릴리스는 Gemma 3 계열 전체(270M~27B parameters)를 대상으로 하며, 모델 규모가 커질수록 나타나는 emergent behavior까지 연구할 수 있도록 범위를 넓힌 것이 핵심이다. 발표문 기준 게시일은 December 19, 2025이며, 페이지 수정 시각은 2026-02-16로 표시된다.
핵심 기술 포인트
Gemma Scope 2는 sparse autoencoders(SAEs)와 transcoders를 결합해 모델의 내부 표현과 행위를 연결해 해석하도록 설계됐다. DeepMind는 전 레이어 수준에서 SAEs와 transcoders를 학습했고, skip-transcoders 및 cross-layer transcoders를 포함해 다단계 계산 과정을 더 잘 추적할 수 있도록 구성했다고 설명했다. 또한 Matryoshka training technique을 적용해 유용한 개념 포착 성능을 개선했다고 밝혔다.
안전 측면에서는 jailbreaks, hallucinations, sycophancy 같은 문제를 더 정밀하게 관찰하고, chat-tuned Gemma 3 모델에서 refusal behavior 및 chain-of-thought faithfulness 분석을 지원하는 도구를 포함했다. 연구자는 Neuronpedia의 interactive demo를 통해 feature를 탐색할 수 있고, 기술 문서도 함께 확인할 수 있다.
왜 중요한가
DeepMind는 이번 공개를 'AI lab 기준 최대 규모 open-source interpretability release'라고 설명했다. 공개 수치로는 약 110 Petabytes의 저장 데이터와 1 trillion+ 총 학습 파라미터가 제시됐다. 이는 frontier LLM 안전성 연구에서 재현 가능한 도구 기반을 넓혀, 모델 감사(audit)와 디버깅을 실무에 더 가깝게 가져오는 신호로 해석할 수 있다. 특히 agent behavior를 내부 기작 수준에서 확인하려는 수요가 커지는 상황에서, 모델 성능 경쟁과 함께 안전 연구 인프라를 공개 생태계로 확장했다는 점이 이번 발표의 정책적·기술적 의미다.
Source page: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/
Related Articles
Anthropic는 2026년 4월 3일 Fellows 연구를 통해 AI 모델 간 행동 차이를 드러내는 새로운 방법을 소개했다. 함께 공개된 연구는 이 도구를 기존 benchmark가 놓칠 수 있는 모델 고유 행동을 찾는 high-recall screening 방식으로 설명한다.
HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
LocalLLaMA가 반응한 이유는 단순한 수치 비교가 아니었다. 많은 로컬 추론 사용자가 사실상 상식처럼 받아들이던 규칙을 정면으로 건드렸고, 특히 Gemma 쪽에서 모델별 차이가 크다는 점을 보여 줬기 때문이다. 2026년 4월 25일 크롤링 시점 기준 스레드는 324점, 58댓글이었다.
Comments (0)
No comments yet. Be the first to comment!