Google, Gemma 4에 MTP 드래프터 출시 — 추론 속도 최대 3배 향상
Original: Gemma 4 MTP released View original →
Gemma 4 MTP 드래프터 공개
Google이 Gemma 4 모델 패밀리를 위한 Multi-Token Prediction(MTP) 드래프터를 출시했다. r/LocalLLaMA에서 1,000점에 육박하는 호응을 얻으며 로컬 LLM 커뮤니티의 큰 관심을 모았다.
최대 3배 빠른 추론
MTP 드래프터는 특수한 투기적 디코딩(speculative decoding) 아키텍처를 사용한다. 더 작고 빠른 드래프트 모델이 여러 토큰을 미리 예측하면, 타겟 모델이 이를 병렬로 검증한다. 이를 통해 출력 품질이나 추론 논리의 저하 없이 최대 3배의 속도 향상을 달성한다.
기술적 배경
표준 LLM 추론은 메모리 대역폭에 병목이 생긴다. 수십억 개의 파라미터를 VRAM에서 연산 유닛으로 이동시키는 데 처리 시간 대부분이 소모되기 때문이다. MTP는 이 병목을 완화해 활용률이 낮은 컴퓨팅 자원을 효율적으로 사용한다.
지원 모델과 플랫폼
공개된 드래프터는 Gemma 4 31B-IT, 26B-A4B-IT(MoE), E4B, E2B를 지원하며 HuggingFace에서 다운로드할 수 있다. LiteRT-LM, MLX, Hugging Face Transformers, vLLM 등 주요 추론 프레임워크에서 테스트됐다. Gemma 4는 출시 3주 만에 6,000만 다운로드를 달성한 Google의 최고 성능 오픈 모델이다.
Related Articles
Google DeepMind가 26B MoE open model DiffusionGemma를 공개했다. 256-token 블록을 병렬로 다듬는 text diffusion 방식으로 전용 GPU에서 최대 4x 빠른 생성을 노린다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.