LLM Reddit May 6, 2026 1 min read
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.