48GB GPUよりXiaomiのスマホ1台、Redditが沸いたヘッドレスGemma 4サーバー

r/LocalLLaMAでこの投稿が跳ねたのは、また一台すごいGPUマシンが出てきたからではない。Xiaomi 12 Pro 1台を24/7で動くヘッドレスGemma 4ノードに変えた、という設定そのものがコミュニティのど真ん中だった。Redditの元投稿には929 upvotesと235 commentsが付き、空気は「こういう実戦的で変なbuildが見たかった」にかなり近かった。

投稿者によると、まずLineageOSを入れてAndroid UIとbackground bloatを削り、LLMの計算に使えるRAMをおよそ9GB確保した。端末はheadlessで動かし、ネットワークは手でコンパイルした wpa_supplicant で維持する。さらにCPU温度を監視するcustom daemonを用意し、45°Cに達するとWi-Fi smart plug経由で外部のactive cooling moduleを起動するようにしている。24/7運用でbatteryを痛めないため、充電は80%で止めるpower-delivery scriptも入っている。現状はOllama上でGemma 4を動かし、LANから叩けるAPIとして使っているという。

コメント欄もこの投稿の刺さり方をよく示していた。技術寄りの人気コメントは、端末上で llama.cpp を直接ビルドしてOllamaを外せばinference speedをもっと引き上げられるはずだと勧めていた。別の高評価コメントは、48GBや96GBのbuild自慢にはもう飽きていて、普通のconsumer hardwareでちゃんと回るmodelが見たいのだと言う。ここが本当のコミュニティangleだ。これはbenchmark theaterではなく、手元にあるhardwareをlocal AI endpointに変える感覚そのものが共有された投稿だった。

もちろん、こうしたphone buildが本格的なGPU serverを置き換えるわけではない。それでも、軽量assistant、home-lab API、常時起動の個人向けinference nodeといった用途では、発想の幅をかなり広げる。Local AIの文脈でみんなが欲しがっているのは、いつも大きい機材だけではない。すでに持っているhardwareをどこまで賢く再利用できるか。その問いに対して、このXiaomi buildはかなり説得力のある答えを返していた。

48GB GPUよりXiaomiのスマホ1台、Redditが沸いたヘッドレスGemma 4サーバー

Related Articles

10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ

Gemma 4 12B、別エンコーダなしでノートPC級マルチモーダル推論へApache 2.0で公開