r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x
Original: DFlash speculative decoding on Apple Silicon: 4.1x on Qwen3.5-9B, now open source (MLX, M5 Max) View original →
2026年4月14日KSTの早い時間に投稿された r/LocalLLaMA post は、Apple Silicon向けのnative MLX実装によるDFlashを紹介した。投稿者によれば、小さなdraft modelが16 tokensを並列生成し、target modelが1回のforward passでそれらを検証してからcommitする。ポイントはlossless verificationであり、forkしたruntimeではなくstock MLX上で動くという主張だ。さらに過去のnumerical issueを修正し、benchmark方法も見直したうえで、GitHub repository を公開している。
この投稿の価値は、headlineのspeedupだけで終わらないことにある。benchmark条件は比較的明確で、環境はM5 Max、64GB、MLX 0.31.1、baselineはcustom loopではなく mlx_lm.stream_generate、測定は3 runsのmedian、run間に10秒のcooldownが入る。2048 output tokens時点の数字は次の通りだ。
| Model | Baseline | DFlash | Speedup | Acceptance |
|---|---|---|---|---|
| Qwen3.5-4B | 53.74 tok/s | 219.83 tok/s | 4.10x | 89.3% |
| Qwen3.5-9B | 30.96 tok/s | 127.07 tok/s | 4.13x | 89.4% |
| Qwen3.5-27B-4bit | 32.35 tok/s | 62.78 tok/s | 1.90x | 89.1% |
| Qwen3.5-35B-A3B-4bit | 142.12 tok/s | 240.21 tok/s | 1.69x | 88.7% |
解釈も重要だ。投稿では、Apple Siliconのunified memoryではcomputeよりbandwidthが支配的で、batched GEMV、fused gated SiLU、custom SDPAといったMetal kernel最適化はstock MLXより遅かったと述べている。つまり性能向上の主因はexoticなcompute trickではなくnumerical precisionの選択だということだ。これは単なる“4x faster”の宣伝よりはるかに役に立つengineering上の主張だ。
Qwen3.5-27B-4bitで1.90xにとどまる理由も、構造的な制約として説明されている。quantized targetがすでに十分速いと、bf16のdraft modelが新しいbottleneckになるというわけだ。さらにこの実装はQwen3.5のhybrid GatedDeltaNet + attention architecture向けに特化しており、Qwen3やGemmaのようなpure attention modelでも動くが、同じtape-replayの利点は得にくいとされる。Apple hardwareでlocal LLMを回す人にとって、この投稿はspeculative decodingをmarketingではなくbaseline、architecture fit、quantization、memory bandwidthのtrade-offとして捉え直させる材料になっている。
Related Articles
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。
Ollamaが2026年3月30日にApple Silicon向けのMLX previewを公開した。MLX、NVFP4、改良されたcacheを組み合わせ、prefillとdecodeの両方を高速化したとしてHacker Newsでも注目を集めた。
Comments (0)
No comments yet. Be the first to comment!