llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み
Original: Llama.cpp MTP support now in beta! View original →
MTPとは
マルチトークン予測(Multi-Token Prediction, MTP)は、1回の推論ステップで複数のトークンを同時に予測する技術で、生成スループットを大幅に向上させる。vLLMなどのサーバー側推論フレームワークはすでにMTPをサポートしており、llama.cppに対してスピード面で優位に立っていた。
ベータ版の現状
r/LocalLLaMAで277ポイントを獲得した投稿によると、コントリビューターのAmanらの貢献によりllama.cppのMTP実装がベータ段階に入った。現在はQwen3.5 MTPのみ対応しているが、他のモデルへの拡張も予定されている。
開発者は「成熟しつつあるテンソル並列サポートとの組み合わせで、llama.cppとvLLMのトークン生成速度の差のほとんどが解消されると見込まれる」と述べた。
ローカル推論への影響
llama.cppはコンシューマー向けハードウェアでLLMを動かす事実上の標準ツールだ。MTPが安定すれば、Qwen3やLlama 4などのローカル推論速度がサーバーグレードに近づき、クラウド推論の優位性の一つが失われることになる。プルリクエストは現在レビュー中でまもなくメインブランチへのマージが見込まれる。
Related Articles
Alex Ellisの記事は、local LLMをベンチマーク順位ではなく、事業でのコスト、制御、agent運用の信頼性から捉えた点で読まれた。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
r/LocalLLaMAで注目された投稿は、llama.cpp PR #19375のマージを共有し、Qwen3Next推論の速度向上を検証した。PR本文のベンチマークとコミュニティ計測の双方で、copy削減によるt/s改善が確認されている。