LocalLLaMAが好んだのはこの方向、Xiaomi 12 Pro を 24/7 AI node にした build
Original: 24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4) View original →
LocalLLaMAでこの投稿が受けたのは、いつもの巨大 workstation 自慢とはほぼ逆向きの話だったからだ。投稿者は Xiaomi 12 Pro を専用の local AI node に作り替えた。説明もかなり具体的で、LineageOS を入れて Android UI と background bloat を減らし、LLM 用におよそ 9GB の RAM を確保したという。さらに Android framework を freeze して headless 状態を維持し、手動で compile した wpa_supplicant で networking を支え、現在は Gemma4 を Ollama 経由で LAN API として提供しているとしている。
この投稿が面白いのは、単に“動いた”で終わらず、常時運用のための地味な設計まで書いていることだ。custom daemon が CPU 温度を見て 45°C で外部の active cooling module を Wi-Fi smart plug 経由で起動し、別の power-delivery script が充電を 80% で止めて battery degradation を抑えるという。つまり mobile hardware をちょっと試したのではなく、24/7 で使う edge node として整えようとしている。
- LineageOS と headless tuning で RAM と background budget を取り戻している。
- thermal control と battery protection を自動化して常時運用を狙っている。
- 端末上で推論するだけでなく、Gemma4 を LAN API として serving している。
community discussion noted 反応の中心も面白かった。最上位級の comment は、まさにこういう consumer hardware build が見たかった、というものだった。48GB や 96GB の machine ばかりを見るのではなく、普通の人が持っている device で local AI を回す工夫のほうが嬉しいという感覚だ。別の上位 comment は Ollama を外して llama.cpp を直接 compile すれば inference speed をもっと上げられると提案しており、thread 全体が collaborative tuning session のようになっていた。
この反応は local-model scene の重心をよく表している。model size や benchmark だけでなく、実際にどんな hardware に配備できるかがますます重要になっている。phone を reliable な home AI node に作り替える発想が支持されたのは、local inference に参加できる machine の範囲を広げるからだ。lab rack より、手元の device で AI を回したいという空気がそのまま出た thread だった。
Related Articles
Redditで注目されたのは、Claude代替という見出しよりもtool call error rate 12%という具体的な限界だった。
大きな反応を集めた理由は古いCPUの意外性だけでなく、LLM inferenceの現実的なボトルネックが見えたことにある。
QVAC SDK 0.12.0はTurboQuantをopt-in機能として追加し、ローカルLLMのruntime context memoryを最大5倍削減する。8GB級GPUでも4B modelの262K contextを狙える点が大きい。
Comments (0)
No comments yet. Be the first to comment!