Skip to content

DiffusionGemma, 26B open model이 토큰 병목을 4배로 압축

Original: DiffusionGemma: 4x faster text generation View original →

Read in other languages: English日本語
LLM Jun 12, 2026 By Insights AI 1 min read Source

토큰을 한 글자씩 밀어내는 방식이 local AI의 속도 한계라면, DiffusionGemma는 그 병목을 정면으로 바꾼 실험이다. Google DeepMind는 2026년 6월 10일 DiffusionGemma를 공개하고, 전용 GPU에서 최대 4x 빠른 text generation을 목표로 하는 26B Mixture of Experts open model이라고 설명했다.

핵심은 autoregressive LLM처럼 다음 token을 순서대로 예측하지 않는다는 점이다. DiffusionGemma는 256-token 블록 전체를 한 번에 초안으로 만들고, 여러 pass를 거치며 placeholder를 실제 token으로 바꾼다. 이 구조는 single-user local inference에서 GPU가 기다리는 시간을 줄이고, 더 큰 계산 덩어리를 한 번에 처리하게 만든다.

숫자는 개발자에게 꽤 직접적이다. Google은 DiffusionGemma가 single NVIDIA H100에서 1000+ tokens per second, NVIDIA GeForce RTX 5090에서 700+ tokens per second를 낼 수 있다고 제시했다. 전체 모델은 26B MoE지만 inference 때 활성화되는 parameter는 3.8B이며, quantized 상태에서는 18GB VRAM 범위의 high-end consumer GPU에 들어간다는 설명도 붙었다.

라이선스도 중요하다. DiffusionGemma weights는 Apache 2.0으로 공개됐고, Hugging Face, Transformers, MLX, vLLM, NVIDIA NIM 등 여러 경로에서 실험할 수 있다. NVIDIA와의 최적화도 함께 제공돼 GeForce RTX 4090·5090, RTX PRO, DGX Spark 같은 local 또는 deskside 환경을 겨냥한다.

다만 production 품질을 바로 대체하는 모델은 아니다. Google은 표준 Gemma 4가 high-quality production output에는 여전히 기본 선택이라고 선을 그었다. DiffusionGemma의 가치는 low-latency editing, rapid iteration, code infilling, amino acid sequence, mathematical graph처럼 앞뒤 문맥을 동시에 보는 작업에서 더 분명해진다.

관전 포인트는 diffusion language model이 이미지 생성의 기술 호기심을 넘어 developer workflow의 실제 latency 문제를 얼마나 줄이는가다. 품질보다 응답 속도와 local interactivity가 중요한 앱이라면, 이번 공개는 모델 선택지를 하나 더 늘리는 사건이다.

Share: Long

Related Articles