Google DeepMind는 X에서 Gemma 4를 공개하며 자체 하드웨어에서 돌릴 수 있는 오픈 모델 계열이라고 소개했다. 2026년 4월 2일 Developers Blog 글은 Gemma 4가 on-device agentic workflow, 140개 이상 언어 지원, LiteRT-LM 기반 배포 경로를 함께 제공한다고 설명한다.
Gemma 4 Local Agent Stack: edge 배포와 커뮤니티 실측
Gemma 4 공개와 첫 주 10M downloads, RTX·DGX·Jetson 최적화, on-device agentic workflow, long context·quantization·audio 지원까지 local agent stack이 다져지는 흐름을 시간순으로 묶습니다.
Google DeepMind는 2026년 4월 9일 X에서 Gemma 4가 출시 첫 주 10M downloads를 넘었고 Gemma family 전체는 500M downloads를 돌파했다고 밝혔다. Google은 Gemma 4를 reasoning과 agentic workflows, 로컬 하드웨어 배치를 겨냥한 open model family로 포지셔닝하고 있다.
NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.
r/LocalLLaMA의 새 벤치마크는 Gemma 4 31B와 E2B draft 조합에서 speculative decoding이 평균 29%, code 생성에서는 약 50%의 속도 향상을 낼 수 있다고 전했다.
Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.
인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.
Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.
LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.
LocalLLaMA가 이 게시물에 꽂힌 이유는 또 하나의 48GB build가 아니라 손에 잡히는 consumer device 실험이었기 때문이다. 작성자는 Xiaomi 12 Pro를 LineageOS 기반 headless AI server로 바꾸고 Gemma4를 Ollama로 서비스하는 과정을 꽤 구체적으로 공개했다.