#gemma-4

LLM Reddit Apr 29, 2026 1 min read

Gemma 4 tool calling이 흔들린 이유, LocalLLaMA가 잡아낸 작은 Jinja 버그

LocalLLaMA가 이 글을 반긴 이유는 'Gemma 4가 왠지 약하다'로 끝나지 않았기 때문이다. nullable JSON Schema가 빈 type 필드로 납작해지는 구체적 실패 지점을 잡아냈고, 작은 Jinja 수정으로 tool calling이 다시 살아났다.

#gemma-4 #tool-calling #json-schema

LLM Reddit Apr 26, 2026 1 min read

KV cache 양자화, Gemma 4가 먼저 흔들린 이유

LocalLLaMA가 이 글에 반응한 이유는 q8_0 KV cache가 늘 무난하다는 통념이 깨졌기 때문이다. Gemma 4는 Qwen 3.6보다 훨씬 빨리 품질이 무너졌고, 스레드는 바로 SWA cache와 긴 context 영향으로 옮겨갔다.

#kv-cache #quantization #gemma-4

LLM X/Twitter Apr 14, 2026 1 min read

Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다

Quantization 얘기는 accuracy가 버티지 못하면 곧바로 무너진다. Red Hat AI는 quantized Gemma 4 31B가 메모리를 절반으로 줄이면서 tokens/sec를 거의 2배로 높이고, baseline accuracy의 99%+를 유지한다고 적었다.

#gemma-4 #quantization #vllm

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMA가 찾은 Gemma 4 long context의 privacy-first 활용

인기 있는 r/LocalLLaMA thread는 Gemma 4의 256k context window로 100k+ token 개인 저널을 로컬에서 분석한 사례를 소개하며, privacy가 on-device LLM의 실용적 이유가 될 수 있음을 보여줬다.

#local-llms #gemma-4 #privacy

LLM Hacker News Apr 14, 2026 1 min read

Hacker News가 주목한 Gemma 4 local-agent 실전기: Codex CLI를 cloud 밖으로 옮기는 법

Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.

#gemma-4 #codex-cli #local-llm

LLM X/Twitter Apr 12, 2026 1 min read

NVIDIA와 Google, Gemma 4를 RTX GPU와 DGX Spark 기반 local agentic AI 축으로 밀다

NVIDIA AI PC는 2026년 4월 2일 X에서 Gemma 4 모델군이 RTX GPU와 DGX Spark에 최적화됐고, 특히 26B와 31B가 local agentic AI에 적합하다고 밝혔다. NVIDIA 공식 blog는 이 협업이 RTX PC, workstation, DGX Spark, Jetson Orin Nano, data center 배포까지 아우르며, native tool use, multimodal input, Ollama와 llama.cpp 기반 local runtime 지원을 제공한다고 설명한다.

#gemma-4 #nvidia #rtx

LLM Reddit Apr 12, 2026 1 min read

LocalLLaMA 벤치마크, Gemma 4 31B speculative decoding 평균 29% 속도 향상 보고

r/LocalLLaMA의 새 벤치마크는 Gemma 4 31B와 E2B draft 조합에서 speculative decoding이 평균 29%, code 생성에서는 약 50%의 속도 향상을 낼 수 있다고 전했다.

#gemma-4 #speculative-decoding #llama-cpp

LLM Reddit Apr 12, 2026 1 min read

Gemma 4 26B A4B는 245K context에서도 버틸까

r/LocalLLaMA의 한 stress test는 Gemma 4 26B A4B가 llama.cpp에서 262,144 context window의 약 94% 지점에서도 일관성을 유지했다고 주장한다. 정식 benchmark는 아니지만, failure mode와 tuning 값을 함께 공개했다는 점에서 현장감 있는 자료다.

#localllm #gemma-4 #long-context

LLM Apr 11, 2026 1 min read

NVIDIA, Gemma 4를 RTX PC·DGX Spark·Jetson에 최적화... local agentic AI 저변 확대

NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.

#nvidia #gemma-4 #rtx

LLM Reddit Apr 9, 2026 1 min read

Reddit이 본 Gemma 4의 llama.cpp 안정화, 다만 운영상 단서는 남아 있다

LocalLLaMA의 고득점 게시물은 llama.cpp PR #21534 merge 이후 Gemma 4의 current master support가 사실상 안정권에 들어섰다고 봤다. 다만 핵심은 fix 자체보다 tokenizer correctness, chat template, memory flag, 그리고 CUDA 13.2 회피 같은 운영 조건이었다.

#gemma-4 #llama-cpp #tokenizer

LLM Reddit Apr 9, 2026 1 min read

Gemma 4 GGUF를 다시 받아야 하나, Reddit이 짚은 llama.cpp 수정들

LocalLLaMA 글은 최근 llama.cpp 수정 사항 때문에 Gemma 4 GGUF를 다시 내려받을 필요가 생겼다고 주장하며, 로컬 추론 사용자들이 주목해야 할 변경점을 정리했다.

#gemma-4 #gguf #llama-cpp

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA가 밀어올린 Gemma 4 로컬 fine-tuning, 8GB VRAM 가이드와 bug fix 묶음

r/LocalLLaMA에서 빠르게 퍼진 Unsloth Gemma 4 가이드는 Gemma-4-E2B와 E4B를 8GB VRAM으로 로컬 fine-tuning할 수 있다고 주장한다. 게시물은 약 1.5배 빠른 학습, FA2 대비 약 60% 적은 VRAM, 그리고 초기 Gemma 4 training·inference bug fix를 함께 묶어 practical workflow로 제시한다.

#gemma-4 #fine-tuning #local-llm