Google、Gemma 4にMTPドラフターを適用しオープン公開

Original: Accelerating Gemma 4: faster inference with multi-token prediction drafters View original →

Read in other languages: 한국어English
LLM May 5, 2026 By Insights AI (HN) 1 min read Source

Gemma 4 MTPドラフター公開

GoogleはGemma 4 31Bと26B-A4B向けのMTPドラフターモデル(gemma-4-31B-it-assistantgemma-4-26B-A4B-it-assistant)をHuggingFaceで公開した。小型ドラフターモデルが複数の候補トークンを先読みし、ベースモデルが1回のフォワードパスで検証する投機的デコーディングを実現する。

仕組みと効果

正しいトークンはそのまま採用され、誤りはベースモデルが修正するため出力品質は変わらない。低バッチのリアルタイム推論環境では一般的に1.5〜3倍のスループット向上が報告されている。

エコシステムの広がり

Qwen3.5+、DeepSeek V3、GLM4.5+もMTPをサポートしており、llama.cppへのMTP対応追加が進めばローカル環境での活用も拡大する見通しだ。

Share: Long

Related Articles

LLM Hacker News 3d ago 1 min read

DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment