Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

로컬 실행의 제약을 겨냥한 Gemma 4 QAT

Google의 Gemma 4가 모바일과 소비자용 GPU 쪽으로 더 가까워졌다. Google for Developers는 X에서 Gemma 4의 양자화 인식 학습(QAT) 체크포인트를 공개하며, 엣지 장치와 로컬 추론의 메모리 요구량을 줄이는 데 초점을 맞췄다고 밝혔다.

"Gemma 4 quantization-aware training (QAT) models are now available"

이 트윗은 2026년 6월 5일 16:13 UTC에 게시됐고, FxTwitter 확인 시점에 조회수 7만4,000회 이상과 좋아요 1,100개 이상을 기록했다. Google for Developers 계정은 개발자 도구, 모델 배포, API, 플랫폼 업데이트를 다루는 공식 채널이며, 이어진 스레드에서 Hugging Face 가중치와 Google 블로그 링크를 함께 제공했다.

Google 블로그에 따르면 이번 릴리스는 Gemma 4 출시 두 달 뒤 나온 효율화 단계다. QAT는 모델을 훈련하는 과정에서 양자화를 미리 반영해, 학습 뒤 단순 압축하는 PTQ보다 품질 손실을 줄이는 접근이다. Google은 Q4_0 포맷용 체크포인트와 모바일 특화 포맷을 함께 제공하며, 모바일 포맷을 쓰면 Gemma 4 E2B의 메모리 사용량을 1GB까지 낮췄다고 설명했다.

기술적으로는 정적 활성화, 채널 단위 양자화, 일부 토큰 생성 부위의 2-bit 양자화, 임베딩 및 KV 캐시 최적화가 핵심이다. Google은 오디오와 비전 인코더가 필요 없는 경우 모달리티를 줄여 메모리 사용량을 더 낮출 수 있으며, Per-Layer Embeddings를 제외한 E2B 텍스트 전용 모델은 1GB 미만으로 실행할 수 있다고 밝혔다.

배포 측면도 중요하다. 가중치는 Hugging Face에서 받을 수 있고, GGUF는 llama.cpp에 맞춰져 있다. vLLM용 압축 텐서, Ollama, LM Studio, LiteRT-LM, Transformers.js, MLX, SGLang, Unsloth 같은 생태계 통합도 함께 언급됐다.

다음 관전점은 실제 기기 성능이다. 메모리 수치가 낮아져도 토큰 속도, 발열, 배터리, 긴 컨텍스트에서의 KV 캐시 부담은 별도 검증이 필요하다.

Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

로컬 실행의 제약을 겨냥한 Gemma 4 QAT

Related Articles

r/LocalLLaMA를 달군 Gemma 4, 로컬 모델 생태계의 대형 이슈

Google, Gemma 4 공개… Apache 2.0 license와 최대 256K context 제공

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s

Related Articles

r/LocalLLaMA를 달군 Gemma 4, 로컬 모델 생태계의 대형 이슈
LLM Reddit Apr 3, 2026 1 min read

Google, Gemma 4 공개… Apache 2.0 license와 최대 256K context 제공
LLM X/Twitter Apr 2, 2026 2 min read

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s
HN의 논점은 “느리지만 된다”가 아니라 비용과 제어권이었다. 오래된 dual Xeon E5-2690 v2가 ik_llama.cpp 패치로 Gemma 4 26B-A4B를 CPU-only로 돌리며 local inference의 현실선을 다시 그었다.