Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

Original: DFlash speculative decoding on Apple Silicon: 4.1x on Qwen3.5-9B, now open source (MLX, M5 Max) View original →

Read in other languages: 한국어English
LLM Apr 14, 2026 By Insights AI (Reddit) 1 min read Source

なぜRedditで信用されたのか

この投稿は爆発的なmeme threadではなかったが、LocalLLaMAの技術寄りユーザーにはかなり好意的に受け止められた。理由は単純で、投稿者が以前の数字を押し切るのではなく、benchmark methodologyを組み直しnumerical issueを修正し、その上で実装全体をopen source化したからだ。Local LLM界隈では、弱いbaselineや独自loopとの比較だけで大きなspeedupをうたう投稿は珍しくない。その点、この投稿はbaselineを stock mlx_lm.stream_generate に戻したと明言している。クロール時点でスレッドは 105ポイント36コメント で、初期反応も dense Qwen3.5 をApple Siliconで回す実装としてかなり筋が良い、というものだった。

実装の中身

repoによれば、dflash-mlx は2026年の DFlash 論文をMLX上で動かすruntimeだ。draft modelが block diffusion で 16 tokens を並列生成し、target modelがそれを1回のforward passで検証する。repoは出力を lossless と説明しており、commitされるtokenはすべてtarget側の検証を通っているという。報告hardwareは Apple M5 Max, 64GB unified memory、softwareは MLX 0.31.1。代表値として、Qwen3.5-9B の2048-token benchmarkで baseline 30.96 tok/s に対し DFlash 127.07 tok/s、つまり 4.13x のspeedupと 89.36% のacceptanceが示されている。

どこで速くなったのか

面白いのは、投稿者が「custom kernelをたくさん書いたから勝った」とは言っていない点だ。むしろApple Siliconのlocal inferenceは強く bandwidth-bound であり、単純なkernel最適化の多くはstock MLXより遅かったと説明している。実際の改善点として挙げられているのは、tape-replay rollback、長context用の JIT 2-pass SDPA、そして speculative cycle中の numerical coherence を崩さないための調整だ。acceptanceが長めのgenerationでも89%近辺に保たれているのは、この地味な整合性合わせが効いているからだと読むべきだろう。

なぜ実用的な話として見られたのか

Mac上のlocal inferenceという文脈で見ると、この結果の意味はかなり直接的だ。数値が再現されるなら、Qwen系モデルの体感スループットがforked runtimeなしに大きく改善する可能性がある。さらにrepoは、すべてのmodelで同じ倍率が出るわけではないことも率直に書いている。たとえば Qwen3.5-27B-4bit ではgainが小さく、これはquantized targetがすでに十分速いため、bf16 draft側が相対的にボトルネックになりやすいからだという。この手の caveat を含めて説明している点が、投稿を単なる自慢ではなく、実運用を意識したengineering updateに見せている。

出典: dflash-mlx GitHub · DFlash論文 · Reddit議論

Share: Long

Related Articles

LLM Reddit Mar 28, 2026 1 min read

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.