Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目
Original: DFlash speculative decoding on Apple Silicon: 4.1x on Qwen3.5-9B, now open source (MLX, M5 Max) View original →
なぜRedditで信用されたのか
この投稿は爆発的なmeme threadではなかったが、LocalLLaMAの技術寄りユーザーにはかなり好意的に受け止められた。理由は単純で、投稿者が以前の数字を押し切るのではなく、benchmark methodologyを組み直し、numerical issueを修正し、その上で実装全体をopen source化したからだ。Local LLM界隈では、弱いbaselineや独自loopとの比較だけで大きなspeedupをうたう投稿は珍しくない。その点、この投稿はbaselineを stock mlx_lm.stream_generate に戻したと明言している。クロール時点でスレッドは 105ポイント、36コメント で、初期反応も dense Qwen3.5 をApple Siliconで回す実装としてかなり筋が良い、というものだった。
実装の中身
repoによれば、dflash-mlx は2026年の DFlash 論文をMLX上で動かすruntimeだ。draft modelが block diffusion で 16 tokens を並列生成し、target modelがそれを1回のforward passで検証する。repoは出力を lossless と説明しており、commitされるtokenはすべてtarget側の検証を通っているという。報告hardwareは Apple M5 Max, 64GB unified memory、softwareは MLX 0.31.1。代表値として、Qwen3.5-9B の2048-token benchmarkで baseline 30.96 tok/s に対し DFlash 127.07 tok/s、つまり 4.13x のspeedupと 89.36% のacceptanceが示されている。
どこで速くなったのか
面白いのは、投稿者が「custom kernelをたくさん書いたから勝った」とは言っていない点だ。むしろApple Siliconのlocal inferenceは強く bandwidth-bound であり、単純なkernel最適化の多くはstock MLXより遅かったと説明している。実際の改善点として挙げられているのは、tape-replay rollback、長context用の JIT 2-pass SDPA、そして speculative cycle中の numerical coherence を崩さないための調整だ。acceptanceが長めのgenerationでも89%近辺に保たれているのは、この地味な整合性合わせが効いているからだと読むべきだろう。
なぜ実用的な話として見られたのか
Mac上のlocal inferenceという文脈で見ると、この結果の意味はかなり直接的だ。数値が再現されるなら、Qwen系モデルの体感スループットがforked runtimeなしに大きく改善する可能性がある。さらにrepoは、すべてのmodelで同じ倍率が出るわけではないことも率直に書いている。たとえば Qwen3.5-27B-4bit ではgainが小さく、これはquantized targetがすでに十分速いため、bf16 draft側が相対的にボトルネックになりやすいからだという。この手の caveat を含めて説明している点が、投稿を単なる自慢ではなく、実運用を意識したengineering updateに見せている。
出典: dflash-mlx GitHub · DFlash論文 · Reddit議論
Related Articles
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。
March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。
Comments (0)
No comments yet. Be the first to comment!