LLM Reddit Mar 21, 2026 2 min read
r/LocalLLaMA에서 주목받은 mlx-lm PR #990은 Qwen3.5의 built-in MTP head를 native speculative decoding에 활용해 15.3 -> 23.3 tok/s (~1.5x throughput boost), ~80.6% acceptance rate를 제시했다. 다만 converted checkpoint, batching 비활성화, MoE 미검증 같은 운영상 제약도 함께 확인해야 한다.