#mtp

RSS Feed

LLM Reddit May 6, 2026 1 min read

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트

llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.

#qwen #mtp #local-llm

LLM Reddit May 6, 2026 1 min read

Google, Gemma 4에 MTP 드래프터 출시 — 추론 속도 최대 3배 향상

Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.

#gemma #google #mtp

LLM Reddit May 4, 2026 1 min read

llama.cpp, 멀티토큰 예측(MTP) 베타 진입

llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.

#llama-cpp #mtp #local-llm

LLM Reddit Mar 21, 2026 2 min read

r/LocalLLaMA가 주목한 mlx-lm의 Qwen3.5 native MTP와 1.5x 추론 개선 가능성

r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.

#mlx-lm #qwen3.5 #mtp