DiffusionGemma、26B open modelでtoken生成の待ち時間を圧縮
Original: DiffusionGemma: 4x faster text generation View original →
local AIの体感速度を決めるのは、しばしばモデルの賢さではなくtokenが順番に出てくる待ち時間だ。Google DeepMindは2026年6月10日、DiffusionGemmaを公開し、text diffusionによって最大4x高速な生成を目指す26B Mixture of Experts open modelだと説明した。
仕組みは通常のautoregressive LLMと大きく違う。次のtokenを左から右へ一つずつ予測する代わりに、DiffusionGemmaは256-tokenのブロック全体を一度に作り、複数回のpassでplaceholderを実際のtokenへ置き換えていく。生成中にブロック全体を見られるため、single-user local inferenceでGPUをより大きな計算単位に使える。
Googleが示した数字は明確だ。専用GPUでは最大4x速いtoken outputを狙い、single NVIDIA H100で1000+ tokens per second、NVIDIA GeForce RTX 5090で700+ tokens per secondとする。モデル全体は26Bだが、inference時に有効なparameterは3.8Bで、quantized版は18GB VRAM級のhigh-end consumer GPUに収まる設計だ。
公開方法も開発者向けだ。weightsはApache 2.0で提供され、Hugging Face、Transformers、MLX、vLLM、NVIDIA NIMなどから試せる。NVIDIAとの最適化により、GeForce RTX 4090・5090、RTX PRO、DGX Sparkといったlocalまたはdeskside環境も対象になる。
ただし、品質面で標準のGemma 4を置き換える位置づけではない。Googleはhigh-quality production outputにはGemma 4を推奨すると明記している。DiffusionGemmaの狙いは、inline editing、rapid iteration、code infilling、amino acid sequence、mathematical graphのように、低遅延と双方向文脈が効く用途だ。
次の焦点は、diffusion language modelが研究上の面白さを超え、実際のdeveloper workflowで遅延をどこまで削れるかだ。品質差が縮まり、速度差が残るなら、local AIはチャット画面より編集エンジンに近づいていく。
Related Articles
Google DeepMindの2026年4月2日のX投稿は、Gemma 4をreasoningとagentic workflows向けの新しいopen model familyとして紹介した。GoogleはE2B、E4B、26B MoE、31B Denseを公開し、native function calling、structured JSON、長いcontext windowを主要な特徴として打ち出した。
ローカルmultimodal AIの競争が12B級へ入った。Google GemmaはGemma 4 12BをApache 2.0で公開し、画像・音声・テキストを統合的に扱うencoder-free設計を示した。
GoogleはGemma 4 QATチェックポイントを公開し、エッジ端末と消費者向けGPUでのローカル推論を狙う。モバイル形式ではGemma 4 E2Bのメモリが1GBまで下がる。