2026年4月14日KSTの早い時間に投稿された r/LocalLLaMA post は、Apple Silicon向けのnative MLX実装によるDFlashを紹介した。投稿者によれば、小さなdraft modelが16 tokensを並列生成し、target modelが1回のforward passでそれらを検証してからcommitする。ポイントはlossless verificationであり、forkしたruntimeではなくstock MLX上で動くという主張だ。さらに過去のnumerical issueを修正し、benchmark方法も見直したうえで、GitHub repository を公開している。

この投稿の価値は、headlineのspeedupだけで終わらないことにある。benchmark条件は比較的明確で、環境はM5 Max、64GB、MLX 0.31.1、baselineはcustom loopではなく mlx_lm.stream_generate、測定は3 runsのmedian、run間に10秒のcooldownが入る。2048 output tokens時点の数字は次の通りだ。

Model	Baseline	DFlash	Speedup	Acceptance
Qwen3.5-4B	53.74 tok/s	219.83 tok/s	4.10x	89.3%
Qwen3.5-9B	30.96 tok/s	127.07 tok/s	4.13x	89.4%
Qwen3.5-27B-4bit	32.35 tok/s	62.78 tok/s	1.90x	89.1%
Qwen3.5-35B-A3B-4bit	142.12 tok/s	240.21 tok/s	1.69x	88.7%

解釈も重要だ。投稿では、Apple Siliconのunified memoryではcomputeよりbandwidthが支配的で、batched GEMV、fused gated SiLU、custom SDPAといったMetal kernel最適化はstock MLXより遅かったと述べている。つまり性能向上の主因はexoticなcompute trickではなくnumerical precisionの選択だということだ。これは単なる“4x faster”の宣伝よりはるかに役に立つengineering上の主張だ。

Qwen3.5-27B-4bitで1.90xにとどまる理由も、構造的な制約として説明されている。quantized targetがすでに十分速いと、bf16のdraft modelが新しいbottleneckになるというわけだ。さらにこの実装はQwen3.5のhybrid GatedDeltaNet + attention architecture向けに特化しており、Qwen3やGemmaのようなpure attention modelでも動くが、同じtape-replayの利点は得にくいとされる。Apple hardwareでlocal LLMを回す人にとって、この投稿はspeculative decodingをmarketingではなくbaseline、architecture fit、quantization、memory bandwidthのtrade-offとして捉え直させる材料になっている。

#qwen3-5

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x