PixelのGemini Nano、frozen MTPでtoken生成50%以上高速化

スマートフォン上のAIで効いてくる制約は、モデルの賢さだけではなくtokenを1つずつ出す遅さと電力だ。Google Researchは2026年6月26日、Pixel 9・10上のGemini Nano v3を高速化するfrozen Multi-Token Prediction(MTP)の設計を公開した。配備済みモデルを作り直さず、on-device inferenceだけを速くする狙いがある。

通常のspeculative decodingでは、小さなdrafterが複数の候補tokenを先に作り、大きなverifierが並列に確認する。ただしスマートフォンでは別drafterがRAMを消費し、main modelがすでに計算した内部状態も直接使えない。Googleはこの部分をstandalone drafterではなく、Gemini Nanoの最終layerに付ける軽量Transformer headへ置き換えた。

frozen backboneという点が実運用では大きい。Googleは学習済みのGemini Nano v3 weightを固定し、未来tokenの予測誤差を小さくするMTP headだけを学習する。verificationで誤ったdraftは捨てられるため、最終出力はmain modelとbit-for-bitで同一になる。つまり品質やsafety alignmentを変える更新ではなく、速度だけを狙う更新として配布できる。

memory設計もmobile向けに詰められている。MTP headはmain modelのfrozen KV cacheへ直接cross-attendし、重複した履歴を作らない。これによりdrafterの追加prefill latencyを避け、standalone drafterと比べてinstanceあたり130MBを節約したという。

実測値は使い勝手に直結する。Pixel 9の実験ではtaskによってtoken generationが50%以上高速化し、AI Notification SummariesやProofreadなどのproduction workloadではinference passごとに平均でほぼ2個の追加tokenを正しく予測した。verification stepが減れば重いprocessorを起こす時間も減り、電池持ちにも効く。一次情報はGoogle Researchの記事で確認できる。

PixelのGemini Nano、frozen MTPでtoken生成50%以上高速化

Related Articles

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮

Gemma 4 12B、別エンコーダなしでノートPC級マルチモーダル推論へApache 2.0で公開