llama.cppにMulti-Token Predictionサポートがマージ——ローカルLLM推論が加速
Original: MTP support merged into llama.cpp View original →
MTPがllama.cppに到着
PR #22673がllama.cppのmasterブランチにマージされ、Multi-Token Prediction(MTP)サポートが最も広く使われるローカルLLM推論エンジンに公式搭載された。r/LocalLLAMAで300票超の高評価を獲得し、コミュニティ全体に喜びの声が広がった。
MTPとは何か
通常の自己回帰言語モデルはトークンを1つずつ順番に生成する。MTPは1回のforwardパスで複数の将来トークンを同時に予測するようモデルを訓練する手法だ。DeepSeek-V3やDeepSeek-R1がMTPを活用して推論速度を大幅に向上させ、業界の注目を集めた。
実用的な意味
MTPは訓練時の手法であるため、すべてのモデルがすぐに恩恵を受けるわけではない。しかしMTPで訓練された新しいモデル(現在および今後リリースされるもの)をllama.cppで実行する際、推論速度の向上が期待できる。Orthrus-Qwen3などの並列生成アプローチとともに、ローカル推論エコシステムの高速化競争が本格化している。
llama.cppの重要性
llama.cppはCPUおよびApple SiliconのLLM推論における事実上の標準エンジンで、Mac・Linux・Windowsを問わず広く使われている。今回のMTPマージは、オープンソースAIインフラが最新の研究技術をいかに迅速に取り込むかを示す好例だ。
Related Articles
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
OrthrusフレームワークがQwen3モデルで1回のforwardパスあたり最大7.8倍のトークン生成を達成した。単一KVキャッシュで自動回帰と拡散ビューを統合するデュアルビューアーキテクチャにより、出力分布は原本と数学的に同一だ。
Comments (0)
No comments yet. Be the first to comment!