Google, Gemma 4에 MTP 드래프터 출시 — 추론 속도 최대 3배 향상

Gemma 4 MTP 드래프터 공개

Google이 Gemma 4 모델 패밀리를 위한 Multi-Token Prediction(MTP) 드래프터를 출시했다. r/LocalLLaMA에서 1,000점에 육박하는 호응을 얻으며 로컬 LLM 커뮤니티의 큰 관심을 모았다.

최대 3배 빠른 추론

MTP 드래프터는 특수한 투기적 디코딩(speculative decoding) 아키텍처를 사용한다. 더 작고 빠른 드래프트 모델이 여러 토큰을 미리 예측하면, 타겟 모델이 이를 병렬로 검증한다. 이를 통해 출력 품질이나 추론 논리의 저하 없이 최대 3배의 속도 향상을 달성한다.

기술적 배경

표준 LLM 추론은 메모리 대역폭에 병목이 생긴다. 수십억 개의 파라미터를 VRAM에서 연산 유닛으로 이동시키는 데 처리 시간 대부분이 소모되기 때문이다. MTP는 이 병목을 완화해 활용률이 낮은 컴퓨팅 자원을 효율적으로 사용한다.

지원 모델과 플랫폼

공개된 드래프터는 Gemma 4 31B-IT, 26B-A4B-IT(MoE), E4B, E2B를 지원하며 HuggingFace에서 다운로드할 수 있다. LiteRT-LM, MLX, Hugging Face Transformers, vLLM 등 주요 추론 프레임워크에서 테스트됐다. Gemma 4는 출시 3주 만에 6,000만 다운로드를 달성한 Google의 최고 성능 오픈 모델이다.