LLM Reddit Apr 15, 2026 1 min read
LocalLLaMAでこの投稿が伸びたのは、また一つの 48GB build ではなく、手の届く consumer device 実験だったからだ。投稿者は Xiaomi 12 Pro を LineageOS ベースの headless AI server に作り替え、Gemma4 を Ollama 経由で LAN に配る構成をかなり具体的に書いている。
LocalLLaMAでこの投稿が伸びたのは、また一つの 48GB build ではなく、手の届く consumer device 実験だったからだ。投稿者は Xiaomi 12 Pro を LineageOS ベースの headless AI server に作り替え、Gemma4 を Ollama 経由で LAN に配る構成をかなり具体的に書いている。
LocalLLaMAでこのthreadが伸びたのは、local agent 構成から別建ての音声パイプラインを一つ減らせる期待があるからだ。投稿では llama-server が Gemma-4 E2A と E4A で STT を扱えるようになったとされ、comment はすぐに Whisper や Voxtral との実用比較へ進んだ。
`r/LocalLLaMA` の benchmark post は、TurboQuant KV cache compression により RTX 5090 1 枚で Gemma 4 31B を 256K context まで動かしたと主張する。速度だけでなく VRAM usage、Windows/MSVC build fix、KV quant の品質懸念まで共有している点が注目された。
Apple Silicon の Mac mini で Ollama と Gemma 4 を運用する実践 gist が HN で注目された。投稿者は `gemma4:26b` が 24GB unified memory をほぼ使い切ると述べ、default 8B model と preload/keep-alive 設定を現実的な運用案として示した。