GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

Gemma 4にMTPドラフターが追加

GoogleがGemma 4モデルファミリー向けのMulti-Token Prediction(MTP)ドラフターを公開した。r/LocalLLaMAで1,000点近い支持を集め、今週のローカルLLMコミュニティで最も注目された発表となった。

品質低下なしに最大3倍高速化

MTPドラフターは特殊な投機的デコーディングアーキテクチャを使用する。より小さく高速なドラフトモデルが複数のトークンを先読みし、ターゲットモデルが並列で検証する。出力品質や推論能力を損なうことなく、トークン毎秒で最大3倍の速度向上を実現する。

技術的背景

標準的なLLM推論はメモリ帯域幅がボトルネックになる。プロセッサが各トークンを生成するためにVRAMから演算ユニットに数十億のパラメータを移動させることに処理時間の大半が費やされる。MTPはこのボトルネックを軽減し、活用率の低いコンピューティングリソースを効率的に使用する。

対応モデルとプラットフォーム

公開されたドラフターはGemma 4 31B-IT、26B-A4B-IT(MoE)、E4B、E2Bに対応し、Hugging Faceで利用できる。LiteRT-LM、MLX、Hugging Face Transformers、vLLMでテスト済みだ。Gemma 4は発売3週間で6,000万ダウンロードを達成したGoogleの最高性能オープンモデルだ。