Google、Gemma 4にMTPドラフターを適用しオープン公開
Original: Accelerating Gemma 4: faster inference with multi-token prediction drafters View original →
Gemma 4 MTPドラフター公開
GoogleはGemma 4 31Bと26B-A4B向けのMTPドラフターモデル(gemma-4-31B-it-assistant、gemma-4-26B-A4B-it-assistant)をHuggingFaceで公開した。小型ドラフターモデルが複数の候補トークンを先読みし、ベースモデルが1回のフォワードパスで検証する投機的デコーディングを実現する。
仕組みと効果
正しいトークンはそのまま採用され、誤りはベースモデルが修正するため出力品質は変わらない。低バッチのリアルタイム推論環境では一般的に1.5〜3倍のスループット向上が報告されている。
エコシステムの広がり
Qwen3.5+、DeepSeek V3、GLM4.5+もMTPをサポートしており、llama.cppへのMTP対応追加が進めばローカル環境での活用も拡大する見通しだ。
Related Articles
Google AI Edge TeamはApril 2, 2026、Gemma 4がApache 2.0 licenseの下でphone、desktop、edge hardwareへmulti-step agentic workflowを持ち込むと発表した。今回のlaunchはopen models、Agent Skills、LiteRT-LM deployment toolingを組み合わせている。
Google DeepMindの2026年4月2日のX投稿は、Gemma 4をreasoningとagentic workflows向けの新しいopen model familyとして紹介した。GoogleはE2B、E4B、26B MoE、31B Denseを公開し、native function calling、structured JSON、長いcontext windowを主要な特徴として打ち出した。
DeepSeekがDeepSeek-V4-Pro(総パラメータ1.6兆、アクティブ49B)とV4-Flash(284B/13B)を公開した。両モデルはMITライセンスで100万トークンコンテキストに対応するMixture-of-Expertsモデル。V4-Proはこれまでで最大のオープンウェイトモデルとなり、価格はGPT-5.4やClaude Sonnet 4.6の半分以下だ。
Comments (0)
No comments yet. Be the first to comment!