LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告
Original: DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max) View original →
LocalLLaMAが試したこと
2026-04-11のr/LocalLLaMA投稿は、block diffusionベースのspeculative decoding手法であるDFlashを、M5 Max 64GB上のnative MLX実装で試した結果を共有した。投稿者によれば、小さなdraft modelが16 tokenを並列生成し、target modelが一回のforward passでそれをverifyし、最終outputはgreedy baseline decodingとbit-for-bit identicalのままだという。local inference利用者にとって重要なのは、このspeedupがquality tradeoffではなくsystems optimizationとして提示されている点だ。
公開された数値も目を引く。Qwen3.5-9B bf16では1024 token生成でDFlash 85 tok/s、baseline 26 tok/s、2048 tokenでも80対26とされた。Qwen3.5-4B bf16では1024で109対41、2048で133対42という。さらにquantized Qwen3.5-27Bでも、4bitと8bitの設定に応じておよそ1.7倍から2.5倍のspeedupが報告されている。
何が数字を動かしたのか
この投稿が有用なのは、何を変えたかまで書いていることだ。投稿者は、Qwen3.5-9Bのhead_dim=256に対応する小さなpatchをMLXへ入れて高速attention pathを有効にし、runtimeを組み替えてcycleごとのGPU-to-CPU syncを二回から一回へ減らし、分離されたQKV projectionをsingle matmul plus splitへまとめたと説明している。acceptance rateはおよそ80%から87%とされた。
同じくらい興味深いのは negative result だ。投稿によると、unified-memoryのApple hardwareではbatched GEMV、fused gated SiLU、custom SDPA向けのMetal kernelがstock MLX kernelより遅かった。またverify costは4 tokenから16 tokenへ増やしてもほぼ横ばいで、この環境ではtoken数よりweight loadingの方が支配的である可能性が示唆される。さらにquantized targetではverifierではなくdraft modelがボトルネックになりうるという、通常のspeculative decoding直感を逆転させる観察も出ている。
local inferenceにとっての意味
より大きな含意は、Apple Silicon最適化がもはやCUDA tuningの小型版ではなく、独自のdisciplineとして見え始めていることだ。discrete GPU stackで直感的に有効そうな手法が、unified memory bandwidth、MLX kernel、quantized verification pathの上ではそのまま勝たない場合がある。だからこそ、こうした firsthand community reportの価値は高い。
投稿者は実装がまだwork in progressで、現時点ではopen source化していないとも述べている。それでもこの投稿は、次のlocal LLM speedupがどこから来るかをかなり具体的に示している。exact speculative decoding、targeted runtime surgery、そしてmodel sizeやquantizationに応じてdraftとverifyの釣り合いがどう変わるかを理解することが、重要な鍵になりそうだ。
Source links: Reddit thread, DFlash paper.
Related Articles
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
Comments (0)
No comments yet. Be the first to comment!