GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍
Original: Gemma 4 MTP released View original →
Gemma 4にMTPドラフターが追加
GoogleがGemma 4モデルファミリー向けのMulti-Token Prediction(MTP)ドラフターを公開した。r/LocalLLaMAで1,000点近い支持を集め、今週のローカルLLMコミュニティで最も注目された発表となった。
品質低下なしに最大3倍高速化
MTPドラフターは特殊な投機的デコーディングアーキテクチャを使用する。より小さく高速なドラフトモデルが複数のトークンを先読みし、ターゲットモデルが並列で検証する。出力品質や推論能力を損なうことなく、トークン毎秒で最大3倍の速度向上を実現する。
技術的背景
標準的なLLM推論はメモリ帯域幅がボトルネックになる。プロセッサが各トークンを生成するためにVRAMから演算ユニットに数十億のパラメータを移動させることに処理時間の大半が費やされる。MTPはこのボトルネックを軽減し、活用率の低いコンピューティングリソースを効率的に使用する。
対応モデルとプラットフォーム
公開されたドラフターはGemma 4 31B-IT、26B-A4B-IT(MoE)、E4B、E2Bに対応し、Hugging Faceで利用できる。LiteRT-LM、MLX、Hugging Face Transformers、vLLMでテスト済みだ。Gemma 4は発売3週間で6,000万ダウンロードを達成したGoogleの最高性能オープンモデルだ。
Related Articles
GoogleがGemma 4の31Bと26B-A4Bモデル向けにMTPドラフターモデルをオープンウェイトで公開した。投機的デコーディングにより推論速度が大幅に向上し、出力品質は維持される。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
Comments (0)
No comments yet. Be the first to comment!