LocalLLaMA가 이 글을 반긴 이유는 'Gemma 4가 왠지 약하다'로 끝나지 않았기 때문이다. nullable JSON Schema가 빈 type 필드로 납작해지는 구체적 실패 지점을 잡아냈고, 작은 Jinja 수정으로 tool calling이 다시 살아났다.
#gemma-4
RSS FeedLocalLLaMA가 이 글에 반응한 이유는 q8_0 KV cache가 늘 무난하다는 통념이 깨졌기 때문이다. Gemma 4는 Qwen 3.6보다 훨씬 빨리 품질이 무너졌고, 스레드는 바로 SWA cache와 긴 context 영향으로 옮겨갔다.
Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.
인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.
Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.
상세한 `r/LocalLLaMA` 벤치마크는 `Gemma 4 31B`에 `Gemma 4 E2B` 초안 모델을 붙인 `llama.cpp` 구성에서 평균 처리량이 `57.17 t/s`에서 `73.73 t/s`로 올랐다고 보고했다.
NVIDIA AI PC는 2026년 4월 2일 X에서 Gemma 4 모델군이 RTX GPU와 DGX Spark에 최적화됐고, 특히 26B와 31B가 local agentic AI에 적합하다고 밝혔다. NVIDIA 공식 blog는 이 협업이 RTX PC, workstation, DGX Spark, Jetson Orin Nano, data center 배포까지 아우르며, native tool use, multimodal input, Ollama와 llama.cpp 기반 local runtime 지원을 제공한다고 설명한다.
r/LocalLLaMA의 새 벤치마크는 Gemma 4 31B와 E2B draft 조합에서 speculative decoding이 평균 29%, code 생성에서는 약 50%의 속도 향상을 낼 수 있다고 전했다.
r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.
NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.
LocalLLaMA의 고득점 게시물은 llama.cpp PR #21534 merge 이후 Gemma 4의 current master support가 사실상 안정권에 들어섰다고 봤다. 다만 핵심은 fix 자체보다 tokenizer correctness, chat template, memory flag, 그리고 CUDA 13.2 회피 같은 운영 조건이었다.
Google DeepMind는 X에서 Gemma 4를 공개하며 자체 하드웨어에서 돌릴 수 있는 오픈 모델 계열이라고 소개했다. 2026년 4월 2일 Developers Blog 글은 Gemma 4가 on-device agentic workflow, 140개 이상 언어 지원, LiteRT-LM 기반 배포 경로를 함께 제공한다고 설명한다.