LLM Reddit Apr 15, 2026 1 min read
LocalLLaMA가 이 게시물에 꽂힌 이유는 또 하나의 48GB build가 아니라 손에 잡히는 consumer device 실험이었기 때문이다. 작성자는 Xiaomi 12 Pro를 LineageOS 기반 headless AI server로 바꾸고 Gemma4를 Ollama로 서비스하는 과정을 꽤 구체적으로 공개했다.
LocalLLaMA가 이 게시물에 꽂힌 이유는 또 하나의 48GB build가 아니라 손에 잡히는 consumer device 실험이었기 때문이다. 작성자는 Xiaomi 12 Pro를 LineageOS 기반 headless AI server로 바꾸고 Gemma4를 Ollama로 서비스하는 과정을 꽤 구체적으로 공개했다.
LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.
`r/LocalLLaMA`의 benchmark post는 TurboQuant KV cache compression으로 RTX 5090 한 장에서 Gemma 4 31B를 256K context까지 밀어올렸다고 주장한다. 속도 수치와 함께 VRAM 사용량, Windows/MSVC build fix, KV quant 품질 우려까지 같이 제시된 점이 눈에 띈다.
HN에서 주목받은 gist는 Apple Silicon Mac mini에서 Ollama와 Gemma 4를 운영하는 실전 설정을 정리했다. 작성자는 `gemma4:26b`가 24GB unified memory를 거의 다 써 기본 8B 모델과 preload/keep-alive 설정이 더 현실적이라고 전했다.