r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

Original: DFlash speculative decoding on Apple Silicon: 4.1x on Qwen3.5-9B, now open source (MLX, M5 Max) View original →

Read in other languages: 한국어English
LLM Apr 13, 2026 By Insights AI (Reddit) 1 min read 4 views Source

2026年4月14日KSTの早い時間に投稿された r/LocalLLaMA post は、Apple Silicon向けのnative MLX実装によるDFlashを紹介した。投稿者によれば、小さなdraft modelが16 tokensを並列生成し、target modelが1回のforward passでそれらを検証してからcommitする。ポイントはlossless verificationであり、forkしたruntimeではなくstock MLX上で動くという主張だ。さらに過去のnumerical issueを修正し、benchmark方法も見直したうえで、GitHub repository を公開している。

この投稿の価値は、headlineのspeedupだけで終わらないことにある。benchmark条件は比較的明確で、環境はM5 Max、64GB、MLX 0.31.1、baselineはcustom loopではなく mlx_lm.stream_generate、測定は3 runsのmedian、run間に10秒のcooldownが入る。2048 output tokens時点の数字は次の通りだ。

ModelBaselineDFlashSpeedupAcceptance
Qwen3.5-4B53.74 tok/s219.83 tok/s4.10x89.3%
Qwen3.5-9B30.96 tok/s127.07 tok/s4.13x89.4%
Qwen3.5-27B-4bit32.35 tok/s62.78 tok/s1.90x89.1%
Qwen3.5-35B-A3B-4bit142.12 tok/s240.21 tok/s1.69x88.7%

解釈も重要だ。投稿では、Apple Siliconのunified memoryではcomputeよりbandwidthが支配的で、batched GEMV、fused gated SiLU、custom SDPAといったMetal kernel最適化はstock MLXより遅かったと述べている。つまり性能向上の主因はexoticなcompute trickではなくnumerical precisionの選択だということだ。これは単なる“4x faster”の宣伝よりはるかに役に立つengineering上の主張だ。

Qwen3.5-27B-4bitで1.90xにとどまる理由も、構造的な制約として説明されている。quantized targetがすでに十分速いと、bf16のdraft modelが新しいbottleneckになるというわけだ。さらにこの実装はQwen3.5のhybrid GatedDeltaNet + attention architecture向けに特化しており、Qwen3やGemmaのようなpure attention modelでも動くが、同じtape-replayの利点は得にくいとされる。Apple hardwareでlocal LLMを回す人にとって、この投稿はspeculative decodingをmarketingではなくbaseline、architecture fit、quantization、memory bandwidthのtrade-offとして捉え直させる材料になっている。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.