#gemma4

LLM Reddit Apr 15, 2026 1 min read

LocalLLaMA가 좋아한 방향은 이쪽, Xiaomi 12 Pro를 24/7 AI node로 바꾼 build

LocalLLaMA가 이 게시물에 꽂힌 이유는 또 하나의 48GB build가 아니라 손에 잡히는 consumer device 실험이었기 때문이다. 작성자는 Xiaomi 12 Pro를 LineageOS 기반 headless AI server로 바꾸고 Gemma4를 Ollama로 서비스하는 과정을 꽤 구체적으로 공개했다.

#local-ai #ollama #gemma4

LLM Reddit Apr 15, 2026 1 min read

LocalLLaMA가 들썩인 Gemma-4 audio 지원, llama-server에서 STT가 바로 돈다

LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.

#llama.cpp #gemma4 #speech-to-text

LLM Reddit Apr 4, 2026 1 min read

LocalLLaMA, RTX 5090 한 장에서 Gemma 4 31B 256K context benchmark 공개

`r/LocalLLaMA`의 benchmark post는 TurboQuant KV cache compression으로 RTX 5090 한 장에서 Gemma 4 31B를 256K context까지 밀어올렸다고 주장한다. 속도 수치와 함께 VRAM 사용량, Windows/MSVC build fix, KV quant 품질 우려까지 같이 제시된 점이 눈에 띈다.

#gemma4 #llama.cpp #kv-cache

LLM Hacker News Apr 4, 2026 1 min read

HN에서 주목받은 Mac mini용 Ollama + Gemma 4 실전 설정

HN에서 주목받은 gist는 Apple Silicon Mac mini에서 Ollama와 Gemma 4를 운영하는 실전 설정을 정리했다. 작성자는 `gemma4:26b`가 24GB unified memory를 거의 다 써 기본 8B 모델과 preload/keep-alive 설정이 더 현실적이라고 전했다.

#ollama #gemma4 #mac-mini