LLM Reddit Mar 21, 2026 1 min read
r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。