Google, Gemma 4에 MTP 드래프터 출시 — 추론 속도 최대 3배 향상
Original: Gemma 4 MTP released View original →
Gemma 4 MTP 드래프터 공개
Google이 Gemma 4 모델 패밀리를 위한 Multi-Token Prediction(MTP) 드래프터를 출시했다. r/LocalLLaMA에서 1,000점에 육박하는 호응을 얻으며 로컬 LLM 커뮤니티의 큰 관심을 모았다.
최대 3배 빠른 추론
MTP 드래프터는 특수한 투기적 디코딩(speculative decoding) 아키텍처를 사용한다. 더 작고 빠른 드래프트 모델이 여러 토큰을 미리 예측하면, 타겟 모델이 이를 병렬로 검증한다. 이를 통해 출력 품질이나 추론 논리의 저하 없이 최대 3배의 속도 향상을 달성한다.
기술적 배경
표준 LLM 추론은 메모리 대역폭에 병목이 생긴다. 수십억 개의 파라미터를 VRAM에서 연산 유닛으로 이동시키는 데 처리 시간 대부분이 소모되기 때문이다. MTP는 이 병목을 완화해 활용률이 낮은 컴퓨팅 자원을 효율적으로 사용한다.
지원 모델과 플랫폼
공개된 드래프터는 Gemma 4 31B-IT, 26B-A4B-IT(MoE), E4B, E2B를 지원하며 HuggingFace에서 다운로드할 수 있다. LiteRT-LM, MLX, Hugging Face Transformers, vLLM 등 주요 추론 프레임워크에서 테스트됐다. Gemma 4는 출시 3주 만에 6,000만 다운로드를 달성한 Google의 최고 성능 오픈 모델이다.
Related Articles
구글이 Gemma 4 31B와 26B-A4B 모델에 Multi-Token Prediction 드래프터를 적용해 추론 속도를 높인 오픈 웨이트를 공개했다. 소형 드래프터가 토큰을 미리 예측하면 기본 모델이 검증하는 투기적 디코딩 방식이다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
Comments (0)
No comments yet. Be the first to comment!