llama.cppにMulti-Token Predictionサポートがマージ——ローカルLLM推論が加速

Original: MTP support merged into llama.cpp View original →

Read in other languages: 한국어 English

LLM May 16, 2026 By Insights AI (Reddit) 1 min read Source

MTPがllama.cppに到着

PR #22673がllama.cppのmasterブランチにマージされ、Multi-Token Prediction（MTP）サポートが最も広く使われるローカルLLM推論エンジンに公式搭載された。r/LocalLLAMAで300票超の高評価を獲得し、コミュニティ全体に喜びの声が広がった。

MTPとは何か

通常の自己回帰言語モデルはトークンを1つずつ順番に生成する。MTPは1回のforwardパスで複数の将来トークンを同時に予測するようモデルを訓練する手法だ。DeepSeek-V3やDeepSeek-R1がMTPを活用して推論速度を大幅に向上させ、業界の注目を集めた。

実用的な意味

MTPは訓練時の手法であるため、すべてのモデルがすぐに恩恵を受けるわけではない。しかしMTPで訓練された新しいモデル（現在および今後リリースされるもの）をllama.cppで実行する際、推論速度の向上が期待できる。Orthrus-Qwen3などの並列生成アプローチとともに、ローカル推論エコシステムの高速化競争が本格化している。

llama.cppの重要性

llama.cppはCPUおよびApple SiliconのLLM推論における事実上の標準エンジンで、Mac・Linux・Windowsを問わず広く使われている。今回のMTPマージは、オープンソースAIインフラが最新の研究技術をいかに迅速に取り込むかを示す好例だ。

#llama-cpp #inference #open-source #mtp #multi-token-prediction

Share: Long

Related Articles

LLM Reddit May 4, 2026 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

5

LLM Reddit 6d ago 1 min read

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。

#local-llm #qwen #llama-cpp

4

LLM Hacker News 1h ago 1 min read

Orthrus-Qwen3、同一出力を保ちながら推論速度7.8倍を実現

OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。

#inference #qwen3 #speculative-decoding

Comments (0)

No comments yet. Be the first to comment!