48GB GPU 대신 샤오미 폰 한 대, Reddit이 꽂힌 헤드리스 Gemma 4 서버

r/LocalLLaMA에서 이 포스트가 크게 터진 이유는 또 하나의 거대한 GPU 자랑이 아니었기 때문이다. Xiaomi 12 Pro 한 대를 24시간 돌아가는 헤드리스 Gemma 4 노드로 바꿨다는 설정 자체가 커뮤니티 취향을 정확히 건드렸다. 원문 Reddit thread에는 929점과 235개의 댓글이 붙었고, 분위기는 그래, 이런 실전 해킹이 보고 싶었다에 가까웠다.

작성자는 기기를 local AI node로 바꾸기 위해 LineageOS를 올리고 Android UI와 background bloat를 걷어내 약 9GB RAM을 LLM 계산에 남겼다고 적었다. Android framework를 얼리고 직접 컴파일한 wpa_supplicant로 네트워킹을 유지했으며, CPU 온도가 45°C에 닿으면 외부 active cooling module을 Wi-Fi smart plug로 켜는 daemon도 붙였다. 배터리 열화를 막으려고 충전은 80%에서 끊고, 현재는 Ollama 위로 Gemma 4를 올려 LAN에서 접근하는 API로 쓰고 있다고 설명했다.

댓글에서 바로 나온 반응도 핵심을 보여줬다. 가장 눈에 띄는 기술적 피드백은 해당 하드웨어에서 llama.cpp를 직접 빌드하고 Ollama를 빼면 inference speed를 더 끌어올릴 수 있다는 조언이었다. 다른 인기 댓글은 48GB, 96GB 메모리 빌드 자랑 대신 일반 소비자 기기에서 잘 도는 모델을 보고 싶었다고 했다. 이 스레드가 먹힌 이유는 peak benchmark가 아니라, 사람들이 실제로 손에 넣을 수 있는 하드웨어를 AI endpoint로 바꾸는 감각을 보여줬기 때문이다.

이런 구성이 대형 GPU 서버를 대체하진 않는다. 다만 항상 켜 두는 개인용 assistant, 집 안 LAN API, 조용한 실험용 inference node처럼 가벼운 용도에는 전혀 다른 상상을 열어준다. Local AI 커뮤니티가 원하는 것도 꼭 더 큰 장비만은 아니다. 이미 가진 하드웨어를 얼마나 영리하게 재활용할 수 있느냐는 질문에, 이 Xiaomi build가 꽤 설득력 있는 답을 내놨다.

48GB GPU 대신 샤오미 폰 한 대, Reddit이 꽂힌 헤드리스 Gemma 4 서버

Related Articles

10년 된 Xeon으로 Gemma 4 구동, local AI의 병목을 다시 묻는 글

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개