#speculative-decoding

RSS Feed

LLM Reddit Jun 14, 2026 1 min read

Xiaomi MiMoの1Tモデル1000tps主張、LocalLLaMAの焦点は再現性

LocalLLaMAで注目されたのは速度の数字だけでなく、FP4、DFlash、commodity GPU向けkernelが外部でも検証できるかだった。

#xiaomi #mimo #inference

LLM Hacker News May 16, 2026 1 min read

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。

#inference #qwen3 #speculative-decoding

LLM Reddit May 6, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。

#qwen #mtp #local-llm

LLM Reddit May 6, 2026 1 min read

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。

#gemma #google #mtp

LLM Reddit Apr 28, 2026 1 min read

RTX 3090でほぼ2倍、LocalLLaMAがLuce DFlashに食いついた理由

LocalLLaMAはこれを単なるベンチ画像として流さなかった。単一のRTX 3090でQwen3.6-27Bの処理量を平均1.98倍まで押し上げ、再学習なしで長文脈も支えるという主張がスレッドの熱源になっている。

#qwen #speculative-decoding #gguf

LLM Reddit Apr 14, 2026 1 min read

Reddit、Apple SiliconでQwen3.5を4倍級に高速化するDFlash実装に注目

LocalLLaMAでは、この投稿が派手なspeed screenshotではなく、baselineを見直してから公開されたengineering workとして受け止められた。2026年4月13日の投稿では、stock MLX基準でQwen3.5-9Bの2048 tokens生成が30.96 tok/sから127.07 tok/sへ上がり、acceptanceは89.36%と報告された。

#dflash #speculative-decoding #mlx

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMAが追うApple Silicon向けDFlash: MLXでlossless speculative decodingを4.1x

r/LocalLLaMAの新しい投稿は、M5 MaxとMLX 0.31.1上でのDFlash speculative decodingを公開し、Qwen3.5-9Bで127.07 tok/s、4.13xのspeedupを報告した。重要なのは派手な数字より、再現条件とbandwidth bottleneckの解釈が具体的な点だ。

#mlx #apple-silicon #speculative-decoding

LLM Reddit Apr 12, 2026 1 min read

LocalLLaMAベンチマーク、Gemma 4 speculative decodingで平均29%高速化

r/LocalLLaMAの新しいベンチマークでは、Gemma 4 31BとE2B draftの組み合わせでspeculative decodingが平均29%、code生成では約50%の高速化を示した。

#gemma-4 #speculative-decoding #llama-cpp

LLM Reddit Apr 11, 2026 1 min read

LocalLLaMA、Apple SiliconでDFlashによりQwen推論が2〜3倍高速化と報告

LocalLLaMAの実装報告は、Apple Silicon向けnative MLX DFlash runtimeがQwen系inferenceを複数条件で2倍から3倍以上高速化すると主張する。注目点はspeedupだけでなく、greedy baselineとbit-for-bit identical outputを維持したと説明しているところだ。

#apple-silicon #mlx #speculative-decoding

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。

#speculative-decoding #inference #vllm

LLM X/Twitter Apr 1, 2026 1 min read

Together Research、RLベースのadaptive speculative decoding基盤 Aurora を公開

Together Researchは2026年3月31日、live inference traceから学習し、speculative draft modelをserving停止なしに非同期更新するopen-source frameworkのAuroraを公開した。ブログと論文によれば、Auroraはこの問題をasynchronous RLとして定式化し、traffic shift時に強いstatic speculator比で1.25xの追加高速化を示す。

#together-ai #aurora #speculative-decoding

LLM Reddit Mar 21, 2026 1 min read

r/LocalLLaMAが注目したmlx-lmのQwen3.5 native MTPと1.5x推論改善の可能性

r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。

#mlx-lm #qwen3.5 #mtp