llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み
Original: Llama.cpp MTP support now in beta! View original →
MTPとは
マルチトークン予測(Multi-Token Prediction, MTP)は、1回の推論ステップで複数のトークンを同時に予測する技術で、生成スループットを大幅に向上させる。vLLMなどのサーバー側推論フレームワークはすでにMTPをサポートしており、llama.cppに対してスピード面で優位に立っていた。
ベータ版の現状
r/LocalLLaMAで277ポイントを獲得した投稿によると、コントリビューターのAmanらの貢献によりllama.cppのMTP実装がベータ段階に入った。現在はQwen3.5 MTPのみ対応しているが、他のモデルへの拡張も予定されている。
開発者は「成熟しつつあるテンソル並列サポートとの組み合わせで、llama.cppとvLLMのトークン生成速度の差のほとんどが解消されると見込まれる」と述べた。
ローカル推論への影響
llama.cppはコンシューマー向けハードウェアでLLMを動かす事実上の標準ツールだ。MTPが安定すれば、Qwen3やLlama 4などのローカル推論速度がサーバーグレードに近づき、クラウド推論の優位性の一つが失われることになる。プルリクエストは現在レビュー中でまもなくメインブランチへのマージが見込まれる。
Related Articles
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
LocalLLaMAがHipfireに反応したのは、新しいrepoが出たからではない。RDNA勢が長く待っていた「最初からAMD前提」のローカル推論スタックに見えたからだ。
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
Comments (0)
No comments yet. Be the first to comment!