48GB GPUよりXiaomiのスマホ1台、Redditが沸いたヘッドレスGemma 4サーバー

Original: 24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4) View original →

Read in other languages: 한국어English
LLM Apr 15, 2026 By Insights AI (Reddit) 1 min read 2 views Source

r/LocalLLaMAでこの投稿が跳ねたのは、また一台すごいGPUマシンが出てきたからではない。Xiaomi 12 Pro 1台を24/7で動くヘッドレスGemma 4ノードに変えた、という設定そのものがコミュニティのど真ん中だった。Redditの元投稿には929 upvotesと235 commentsが付き、空気は「こういう実戦的で変なbuildが見たかった」にかなり近かった。

投稿者によると、まずLineageOSを入れてAndroid UIとbackground bloatを削り、LLMの計算に使えるRAMをおよそ9GB確保した。端末はheadlessで動かし、ネットワークは手でコンパイルした wpa_supplicant で維持する。さらにCPU温度を監視するcustom daemonを用意し、45°Cに達するとWi-Fi smart plug経由で外部のactive cooling moduleを起動するようにしている。24/7運用でbatteryを痛めないため、充電は80%で止めるpower-delivery scriptも入っている。現状はOllama上でGemma 4を動かし、LANから叩けるAPIとして使っているという。

コメント欄もこの投稿の刺さり方をよく示していた。技術寄りの人気コメントは、端末上で llama.cpp を直接ビルドしてOllamaを外せばinference speedをもっと引き上げられるはずだと勧めていた。別の高評価コメントは、48GBや96GBのbuild自慢にはもう飽きていて、普通のconsumer hardwareでちゃんと回るmodelが見たいのだと言う。ここが本当のコミュニティangleだ。これはbenchmark theaterではなく、手元にあるhardwareをlocal AI endpointに変える感覚そのものが共有された投稿だった。

もちろん、こうしたphone buildが本格的なGPU serverを置き換えるわけではない。それでも、軽量assistant、home-lab API、常時起動の個人向けinference nodeといった用途では、発想の幅をかなり広げる。Local AIの文脈でみんなが欲しがっているのは、いつも大きい機材だけではない。すでに持っているhardwareをどこまで賢く再利用できるか。その問いに対して、このXiaomi buildはかなり説得力のある答えを返していた。

Share: Long

Related Articles

LLM Hacker News 4d ago 1 min read

HNが強く反応したのは、wrapperの好き嫌いではなく、local LLM stackで誰がcreditとcontrolを握るのかという違和感だった。Sleeping Robotsの記事は、Ollamaがllama.cppの上で広がりながら attribution、model packaging、cloud routing、model storageで信頼を削ったと批判し、コメント欄では「それでもUXは強い」という反論も出た。

LLM Hacker News Apr 14, 2026 1 min read

Daniel VaughanのGemma 4検証は、local modelが本当にCodex CLIのagentとして使えるのかを、具体的な設定値と失敗パターンまで含めて示した。ポイントはApple SiliconではOllamaを避け、llama.cppと`--jinja`、KV cache quantization、`web_search = "disabled"`を組み合わせる必要があったことだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.