Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트
Original: Gemma 4 QAT Cuts Edge Model Memory Down to 1GB Target View original →
로컬 실행의 제약을 겨냥한 Gemma 4 QAT
Google의 Gemma 4가 모바일과 소비자용 GPU 쪽으로 더 가까워졌다. Google for Developers는 X에서 Gemma 4의 양자화 인식 학습(QAT) 체크포인트를 공개하며, 엣지 장치와 로컬 추론의 메모리 요구량을 줄이는 데 초점을 맞췄다고 밝혔다.
"Gemma 4 quantization-aware training (QAT) models are now available"
이 트윗은 2026년 6월 5일 16:13 UTC에 게시됐고, FxTwitter 확인 시점에 조회수 7만4,000회 이상과 좋아요 1,100개 이상을 기록했다. Google for Developers 계정은 개발자 도구, 모델 배포, API, 플랫폼 업데이트를 다루는 공식 채널이며, 이어진 스레드에서 Hugging Face 가중치와 Google 블로그 링크를 함께 제공했다.
Google 블로그에 따르면 이번 릴리스는 Gemma 4 출시 두 달 뒤 나온 효율화 단계다. QAT는 모델을 훈련하는 과정에서 양자화를 미리 반영해, 학습 뒤 단순 압축하는 PTQ보다 품질 손실을 줄이는 접근이다. Google은 Q4_0 포맷용 체크포인트와 모바일 특화 포맷을 함께 제공하며, 모바일 포맷을 쓰면 Gemma 4 E2B의 메모리 사용량을 1GB까지 낮췄다고 설명했다.
기술적으로는 정적 활성화, 채널 단위 양자화, 일부 토큰 생성 부위의 2-bit 양자화, 임베딩 및 KV 캐시 최적화가 핵심이다. Google은 오디오와 비전 인코더가 필요 없는 경우 모달리티를 줄여 메모리 사용량을 더 낮출 수 있으며, Per-Layer Embeddings를 제외한 E2B 텍스트 전용 모델은 1GB 미만으로 실행할 수 있다고 밝혔다.
배포 측면도 중요하다. 가중치는 Hugging Face에서 받을 수 있고, GGUF는 llama.cpp에 맞춰져 있다. vLLM용 압축 텐서, Ollama, LM Studio, LiteRT-LM, Transformers.js, MLX, SGLang, Unsloth 같은 생태계 통합도 함께 언급됐다.
다음 관전점은 실제 기기 성능이다. 메모리 수치가 낮아져도 토큰 속도, 발열, 배터리, 긴 컨텍스트에서의 KV 캐시 부담은 별도 검증이 필요하다.
Related Articles
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
r/LocalLLaMA는 Gemma 4 출시를 이번 크롤링에서 가장 강한 커뮤니티 신호 중 하나로 끌어올렸고, Google은 edge부터 workstation까지 아우르는 open model 계열을 제시했다.
Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.