GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍
Original: Gemma 4 MTP released View original →
Gemma 4にMTPドラフターが追加
GoogleがGemma 4モデルファミリー向けのMulti-Token Prediction(MTP)ドラフターを公開した。r/LocalLLaMAで1,000点近い支持を集め、今週のローカルLLMコミュニティで最も注目された発表となった。
品質低下なしに最大3倍高速化
MTPドラフターは特殊な投機的デコーディングアーキテクチャを使用する。より小さく高速なドラフトモデルが複数のトークンを先読みし、ターゲットモデルが並列で検証する。出力品質や推論能力を損なうことなく、トークン毎秒で最大3倍の速度向上を実現する。
技術的背景
標準的なLLM推論はメモリ帯域幅がボトルネックになる。プロセッサが各トークンを生成するためにVRAMから演算ユニットに数十億のパラメータを移動させることに処理時間の大半が費やされる。MTPはこのボトルネックを軽減し、活用率の低いコンピューティングリソースを効率的に使用する。
対応モデルとプラットフォーム
公開されたドラフターはGemma 4 31B-IT、26B-A4B-IT(MoE)、E4B、E2Bに対応し、Hugging Faceで利用できる。LiteRT-LM、MLX、Hugging Face Transformers、vLLMでテスト済みだ。Gemma 4は発売3週間で6,000万ダウンロードを達成したGoogleの最高性能オープンモデルだ。
Related Articles
Google DeepMindが26B MoE open modelのDiffusionGemmaを公開した。256-tokenブロックを並列に生成・修正するtext diffusion方式で、専用GPUでは最大4x高速な生成を狙う。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。