#mlx-lm - Insights

LLM Reddit Mar 21, 2026 1 min read

r/LocalLLaMAが注目したmlx-lmのQwen3.5 native MTPと1.5x推論改善の可能性

r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。

#mlx-lm #qwen3.5 #mtp