#mtp

RSS Feed

LLM Reddit May 6, 2026 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。

#qwen #mtp #local-llm

LLM Reddit May 6, 2026 1 min read

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。

#gemma #google #mtp

LLM Reddit May 4, 2026 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

LLM Reddit Mar 21, 2026 1 min read

r/LocalLLaMAが注目したmlx-lmのQwen3.5 native MTPと1.5x推論改善の可能性

r/LocalLLaMAで話題になったmlx-lmのPR #990は、Qwen3.5のbuilt-in MTP headをnative speculative decodingに使い、Qwen3.5-27B 4-bitをM4 Proで15.3 -> 23.3 tok/s (~1.5x throughput boost)、~80.6% acceptance rateと報告した。実用性は高いが、converted checkpoint、batching無効化、MoE未検証という制約も大きい。

#mlx-lm #qwen3.5 #mtp