Gemma 4, Multi-Token Prediction 드래프터로 추론 속도 향상

Gemma 4 MTP 드래프터 출시

구글이 Gemma 4 31B와 26B-A4B 모델에 Multi-Token Prediction(MTP) 드래프터를 적용한 어시스턴트 모델(gemma-4-31B-it-assistant, gemma-4-26B-A4B-it-assistant)을 HuggingFace에서 공개했다.

작동 원리

드래프터 모델이 여러 후보 토큰을 한 번에 제안하면, 기본 Gemma 4 모델이 한 번의 포워드 패스로 병렬 검증한다. 검증 통과 토큰은 채택되고 실패하면 기본 모델이 수정한다. 출력 품질은 동일하게 유지되면서 실시간 추론 환경에서 1.5~3배 속도 향상이 일반적으로 보고된다.

생태계 확산

Qwen3.5+, DeepSeek V3, GLM4.5+ 등도 MTP를 지원하며, llama.cpp에 MTP 지원이 추가되면 로컬 환경에서의 활용도 넓어질 전망이다. LocalLLaMA 커뮤니티에서 가장 먼저 시도할 모델로 Qwen3.5-122B와 GLM4.5-air가 거론됐다.

LLM Apr 13, 2026 1 min read

Google, Gemma 4로 on-device agentic workflow 확장

Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.

#google #gemma #on-device

LLM X/Twitter Apr 6, 2026 1 min read

Google DeepMind, Apache 2.0와 native agent 기능 갖춘 Gemma 4 공개

Google DeepMind의 2026년 4월 2일 X 게시물은 Gemma 4를 reasoning과 agentic workflows를 겨냥한 새 open model family로 소개했다. Google은 E2B, E4B, 26B MoE, 31B Dense 구성을 공개하고 function calling, structured JSON, 긴 context window를 핵심 차별점으로 제시했다.

#google #deepmind #gemma

LLM Hacker News 5d ago 1 min read

Mistral Medium 3.5, HN이 성능표보다 4GPU·원격 에이전트에 꽂힌 이유

HN은 Mistral Medium 3.5를 단순 모델 공개로 보지 않았다. 4GPU 자가호스팅, 오픈 웨이트, 원격 코딩 에이전트 패키지가 핵심 화제였다.

#mistral #open-weights #coding-agents