Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

なぜRedditで信用されたのか

この投稿は爆発的なmeme threadではなかったが、LocalLLaMAの技術寄りユーザーにはかなり好意的に受け止められた。理由は単純で、投稿者が以前の数字を押し切るのではなく、benchmark methodologyを組み直し、numerical issueを修正し、その上で実装全体をopen source化したからだ。Local LLM界隈では、弱いbaselineや独自loopとの比較だけで大きなspeedupをうたう投稿は珍しくない。その点、この投稿はbaselineを stock mlx_lm.stream_generate に戻したと明言している。クロール時点でスレッドは 105ポイント、36コメント で、初期反応も dense Qwen3.5 をApple Siliconで回す実装としてかなり筋が良い、というものだった。

実装の中身

repoによれば、dflash-mlx は2026年の DFlash 論文をMLX上で動かすruntimeだ。draft modelが block diffusion で 16 tokens を並列生成し、target modelがそれを1回のforward passで検証する。repoは出力を lossless と説明しており、commitされるtokenはすべてtarget側の検証を通っているという。報告hardwareは Apple M5 Max, 64GB unified memory、softwareは MLX 0.31.1。代表値として、Qwen3.5-9B の2048-token benchmarkで baseline 30.96 tok/s に対し DFlash 127.07 tok/s、つまり 4.13x のspeedupと 89.36% のacceptanceが示されている。

どこで速くなったのか

面白いのは、投稿者が「custom kernelをたくさん書いたから勝った」とは言っていない点だ。むしろApple Siliconのlocal inferenceは強く bandwidth-bound であり、単純なkernel最適化の多くはstock MLXより遅かったと説明している。実際の改善点として挙げられているのは、tape-replay rollback、長context用の JIT 2-pass SDPA、そして speculative cycle中の numerical coherence を崩さないための調整だ。acceptanceが長めのgenerationでも89%近辺に保たれているのは、この地味な整合性合わせが効いているからだと読むべきだろう。

なぜ実用的な話として見られたのか

Mac上のlocal inferenceという文脈で見ると、この結果の意味はかなり直接的だ。数値が再現されるなら、Qwen系モデルの体感スループットがforked runtimeなしに大きく改善する可能性がある。さらにrepoは、すべてのmodelで同じ倍率が出るわけではないことも率直に書いている。たとえば Qwen3.5-27B-4bit ではgainが小さく、これはquantized targetがすでに十分速いため、bf16 draft側が相対的にボトルネックになりやすいからだという。この手の caveat を含めて説明している点が、投稿を単なる自慢ではなく、実運用を意識したengineering updateに見せている。

出典: dflash-mlx GitHub · DFlash論文 · Reddit議論

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

なぜRedditで信用されたのか

実装の中身

どこで速くなったのか

なぜ実用的な話として見られたのか

Related Articles

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
LLM Reddit Apr 11, 2026 1 min read

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x
LLM Reddit Apr 13, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
LLM Reddit May 6, 2026 1 min read