Gemma 4, Multi-Token Prediction 드래프터로 추론 속도 향상

Original: Accelerating Gemma 4: faster inference with multi-token prediction drafters View original →

Read in other languages: English日本語
LLM May 5, 2026 By Insights AI (HN) 1 min read Source

Gemma 4 MTP 드래프터 출시

구글이 Gemma 4 31B와 26B-A4B 모델에 Multi-Token Prediction(MTP) 드래프터를 적용한 어시스턴트 모델(gemma-4-31B-it-assistant, gemma-4-26B-A4B-it-assistant)을 HuggingFace에서 공개했다.

작동 원리

드래프터 모델이 여러 후보 토큰을 한 번에 제안하면, 기본 Gemma 4 모델이 한 번의 포워드 패스로 병렬 검증한다. 검증 통과 토큰은 채택되고 실패하면 기본 모델이 수정한다. 출력 품질은 동일하게 유지되면서 실시간 추론 환경에서 1.5~3배 속도 향상이 일반적으로 보고된다.

생태계 확산

Qwen3.5+, DeepSeek V3, GLM4.5+ 등도 MTP를 지원하며, llama.cpp에 MTP 지원이 추가되면 로컬 환경에서의 활용도 넓어질 전망이다. LocalLLaMA 커뮤니티에서 가장 먼저 시도할 모델로 Qwen3.5-122B와 GLM4.5-air가 거론됐다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment