Gemma 4 Local Agent Stack: edge 배포와 커뮤니티 실측

Gemma 4 공개와 첫 주 10M downloads, RTX·DGX·Jetson 최적화, on-device agentic workflow, long context·quantization·audio 지원까지 local agent stack이 다져지는 흐름을 시간순으로 묶습니다.

Share: Long
1
LLM sources.x Apr 9, 2026 1 min read

Google DeepMind는 X에서 Gemma 4를 공개하며 자체 하드웨어에서 돌릴 수 있는 오픈 모델 계열이라고 소개했다. 2026년 4월 2일 Developers Blog 글은 Gemma 4가 on-device agentic workflow, 140개 이상 언어 지원, LiteRT-LM 기반 배포 경로를 함께 제공한다고 설명한다.

2
3
4
5
LLM Hacker News Apr 14, 2026 1 min read

Daniel Vaughan의 Gemma 4 실험은 “local model도 Codex CLI에서 쓸 만한 agent가 될 수 있는가”를 실제 설정값과 실패 사례까지 포함해 검증했다. 핵심은 Apple Silicon에서 Ollama를 포기하고 llama.cpp와 `--jinja`, KV cache quantization, `web_search = "disabled"` 같은 세부 설정을 맞춰야 한다는 점이다.

6
7
8
LLM Reddit 6d ago 1 min read

LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.

9

© 2026 Insights. All rights reserved.