LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAが試したこと

2026-04-11のr/LocalLLaMA投稿は、block diffusionベースのspeculative decoding手法であるDFlashを、M5 Max 64GB上のnative MLX実装で試した結果を共有した。投稿者によれば、小さなdraft modelが16 tokenを並列生成し、target modelが一回のforward passでそれをverifyし、最終outputはgreedy baseline decodingとbit-for-bit identicalのままだという。local inference利用者にとって重要なのは、このspeedupがquality tradeoffではなくsystems optimizationとして提示されている点だ。

公開された数値も目を引く。Qwen3.5-9B bf16では1024 token生成でDFlash 85 tok/s、baseline 26 tok/s、2048 tokenでも80対26とされた。Qwen3.5-4B bf16では1024で109対41、2048で133対42という。さらにquantized Qwen3.5-27Bでも、4bitと8bitの設定に応じておよそ1.7倍から2.5倍のspeedupが報告されている。

何が数字を動かしたのか

この投稿が有用なのは、何を変えたかまで書いていることだ。投稿者は、Qwen3.5-9Bのhead_dim=256に対応する小さなpatchをMLXへ入れて高速attention pathを有効にし、runtimeを組み替えてcycleごとのGPU-to-CPU syncを二回から一回へ減らし、分離されたQKV projectionをsingle matmul plus splitへまとめたと説明している。acceptance rateはおよそ80%から87%とされた。

同じくらい興味深いのは negative result だ。投稿によると、unified-memoryのApple hardwareではbatched GEMV、fused gated SiLU、custom SDPA向けのMetal kernelがstock MLX kernelより遅かった。またverify costは4 tokenから16 tokenへ増やしてもほぼ横ばいで、この環境ではtoken数よりweight loadingの方が支配的である可能性が示唆される。さらにquantized targetではverifierではなくdraft modelがボトルネックになりうるという、通常のspeculative decoding直感を逆転させる観察も出ている。

local inferenceにとっての意味

より大きな含意は、Apple Silicon最適化がもはやCUDA tuningの小型版ではなく、独自のdisciplineとして見え始めていることだ。discrete GPU stackで直感的に有効そうな手法が、unified memory bandwidth、MLX kernel、quantized verification pathの上ではそのまま勝たない場合がある。だからこそ、こうした firsthand community reportの価値は高い。

投稿者は実装がまだwork in progressで、現時点ではopen source化していないとも述べている。それでもこの投稿は、次のlocal LLM speedupがどこから来るかをかなり具体的に示している。exact speculative decoding、targeted runtime surgery、そしてmodel sizeやquantizationに応じてdraftとverifyの釣り合いがどう変わるかを理解することが、重要な鍵になりそうだ。

Source links: Reddit thread, DFlash paper.

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAが試したこと

何が数字を動かしたのか

local inferenceにとっての意味

Related Articles

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由

Comments (0)

Leave a Comment

Related Articles

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目
LLM Reddit Apr 14, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
LLM Reddit May 6, 2026 1 min read

RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由
LLM Reddit Apr 28, 2026 1 min read