LocalLLaMAで注目されたのは速度の数字だけでなく、FP4、DFlash、commodity GPU向けkernelが外部でも検証できるかだった。
#speculative-decoding
RSS FeedOrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。
LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。
r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。
r/LocalLLaMAの新しいベンチマークでは、Gemma 4 31BとE2B draftの組み合わせでspeculative decodingが平均29%、code生成では約50%の高速化を示した。
LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。
r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。