Skip to content

DiffusionGemma、26B open modelでtoken生成の待ち時間を圧縮

Original: DiffusionGemma: 4x faster text generation View original →

Read in other languages: 한국어English
LLM Jun 12, 2026 By Insights AI 1 min read Source

local AIの体感速度を決めるのは、しばしばモデルの賢さではなくtokenが順番に出てくる待ち時間だ。Google DeepMindは2026年6月10日、DiffusionGemmaを公開し、text diffusionによって最大4x高速な生成を目指す26B Mixture of Experts open modelだと説明した。

仕組みは通常のautoregressive LLMと大きく違う。次のtokenを左から右へ一つずつ予測する代わりに、DiffusionGemmaは256-tokenのブロック全体を一度に作り、複数回のpassでplaceholderを実際のtokenへ置き換えていく。生成中にブロック全体を見られるため、single-user local inferenceでGPUをより大きな計算単位に使える。

Googleが示した数字は明確だ。専用GPUでは最大4x速いtoken outputを狙い、single NVIDIA H100で1000+ tokens per second、NVIDIA GeForce RTX 5090で700+ tokens per secondとする。モデル全体は26Bだが、inference時に有効なparameterは3.8Bで、quantized版は18GB VRAM級のhigh-end consumer GPUに収まる設計だ。

公開方法も開発者向けだ。weightsはApache 2.0で提供され、Hugging Face、Transformers、MLX、vLLM、NVIDIA NIMなどから試せる。NVIDIAとの最適化により、GeForce RTX 4090・5090、RTX PRO、DGX Sparkといったlocalまたはdeskside環境も対象になる。

ただし、品質面で標準のGemma 4を置き換える位置づけではない。Googleはhigh-quality production outputにはGemma 4を推奨すると明記している。DiffusionGemmaの狙いは、inline editing、rapid iteration、code infilling、amino acid sequence、mathematical graphのように、低遅延と双方向文脈が効く用途だ。

次の焦点は、diffusion language modelが研究上の面白さを超え、実際のdeveloper workflowで遅延をどこまで削れるかだ。品質差が縮まり、速度差が残るなら、local AIはチャット画面より編集エンジンに近づいていく。

Share: Long

Related Articles