Gemma 4, Multi-Token Prediction 드래프터로 추론 속도 향상
Original: Accelerating Gemma 4: faster inference with multi-token prediction drafters View original →
Gemma 4 MTP 드래프터 출시
구글이 Gemma 4 31B와 26B-A4B 모델에 Multi-Token Prediction(MTP) 드래프터를 적용한 어시스턴트 모델(gemma-4-31B-it-assistant, gemma-4-26B-A4B-it-assistant)을 HuggingFace에서 공개했다.
작동 원리
드래프터 모델이 여러 후보 토큰을 한 번에 제안하면, 기본 Gemma 4 모델이 한 번의 포워드 패스로 병렬 검증한다. 검증 통과 토큰은 채택되고 실패하면 기본 모델이 수정한다. 출력 품질은 동일하게 유지되면서 실시간 추론 환경에서 1.5~3배 속도 향상이 일반적으로 보고된다.
생태계 확산
Qwen3.5+, DeepSeek V3, GLM4.5+ 등도 MTP를 지원하며, llama.cpp에 MTP 지원이 추가되면 로컬 환경에서의 활용도 넓어질 전망이다. LocalLLaMA 커뮤니티에서 가장 먼저 시도할 모델로 Qwen3.5-122B와 GLM4.5-air가 거론됐다.
Related Articles
Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.
Google DeepMind의 2026년 4월 2일 X 게시물은 Gemma 4를 reasoning과 agentic workflows를 겨냥한 새 open model family로 소개했다. Google은 E2B, E4B, 26B MoE, 31B Dense 구성을 공개하고 function calling, structured JSON, 긴 context window를 핵심 차별점으로 제시했다.
HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.
Comments (0)
No comments yet. Be the first to comment!