LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
Original: DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max) View original →
LocalLLaMAが試したこと
2026-04-11のr/LocalLLaMA投稿は、block diffusionベースのspeculative decoding手法であるDFlashを、M5 Max 64GB上のnative MLX実装で試した結果を共有した。投稿者によれば、小さなdraft modelが16 tokenを並列生成し、target modelが一回のforward passでそれをverifyし、最終outputはgreedy baseline decodingとbit-for-bit identicalのままだという。local inference利用者にとって重要なのは、このspeedupがquality tradeoffではなくsystems optimizationとして提示されている点だ。
公開された数値も目を引く。Qwen3.5-9B bf16では1024 token生成でDFlash 85 tok/s、baseline 26 tok/s、2048 tokenでも80対26とされた。Qwen3.5-4B bf16では1024で109対41、2048で133対42という。さらにquantized Qwen3.5-27Bでも、4bitと8bitの設定に応じておよそ1.7倍から2.5倍のspeedupが報告されている。
何が数字を動かしたのか
この投稿が有用なのは、何を変えたかまで書いていることだ。投稿者は、Qwen3.5-9Bのhead_dim=256に対応する小さなpatchをMLXへ入れて高速attention pathを有効にし、runtimeを組み替えてcycleごとのGPU-to-CPU syncを二回から一回へ減らし、分離されたQKV projectionをsingle matmul plus splitへまとめたと説明している。acceptance rateはおよそ80%から87%とされた。
同じくらい興味深いのは negative result だ。投稿によると、unified-memoryのApple hardwareではbatched GEMV、fused gated SiLU、custom SDPA向けのMetal kernelがstock MLX kernelより遅かった。またverify costは4 tokenから16 tokenへ増やしてもほぼ横ばいで、この環境ではtoken数よりweight loadingの方が支配的である可能性が示唆される。さらにquantized targetではverifierではなくdraft modelがボトルネックになりうるという、通常のspeculative decoding直感を逆転させる観察も出ている。
local inferenceにとっての意味
より大きな含意は、Apple Silicon最適化がもはやCUDA tuningの小型版ではなく、独自のdisciplineとして見え始めていることだ。discrete GPU stackで直感的に有効そうな手法が、unified memory bandwidth、MLX kernel、quantized verification pathの上ではそのまま勝たない場合がある。だからこそ、こうした firsthand community reportの価値は高い。
投稿者は実装がまだwork in progressで、現時点ではopen source化していないとも述べている。それでもこの投稿は、次のlocal LLM speedupがどこから来るかをかなり具体的に示している。exact speculative decoding、targeted runtime surgery、そしてmodel sizeやquantizationに応じてdraftとverifyの釣り合いがどう変わるかを理解することが、重要な鍵になりそうだ。
Source links: Reddit thread, DFlash paper.
Related Articles
LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。
Comments (0)
No comments yet. Be the first to comment!