LocalLLaMA가 좋아한 방향은 이쪽, Xiaomi 12 Pro를 24/7 AI node로 바꾼 build
Original: 24/7 Headless AI Server on Xiaomi 12 Pro (Snapdragon 8 Gen 1 + Ollama/Gemma4) View original →
LocalLLaMA에서 이 글이 잘 먹힌 이유는 숫자만 큰 workstation 자랑이 아니라, 오래된 phone 하나를 local AI node로 다시 쓰는 그림이 명확했기 때문이다. 작성자는 Xiaomi 12 Pro에 LineageOS를 올려 Android UI와 background bloat를 줄이고, 대략 9GB 정도의 RAM을 LLM compute에 남기는 구성을 설명했다. 여기에 Android framework를 얼려 두고 직접 컴파일한 wpa_supplicant로 networking을 유지해 headless 상태를 만들었고, 현재는 Gemma4를 Ollama로 띄워 LAN에서 접근 가능한 API 형태로 제공하고 있다고 적었다.
post가 흥미로웠던 건 “돌아간다” 수준에서 멈추지 않고 24/7 운영을 위한 세부사항까지 적었다는 점이다. thermal management용 daemon이 CPU 온도를 보고 45°C에서 외부 active cooling 모듈을 Wi-Fi smart plug로 켜고, power-delivery script가 charging을 80%에서 끊어 battery degradation을 줄이게 했다고 한다. 즉 mobile hardware를 잠깐 장난감으로 돌린 것이 아니라, 상시 node처럼 굴리기 위한 제어면까지 만들어 둔 셈이다.
- LineageOS로 불필요한 Android UI와 background load를 덜어 RAM을 확보했다.
- networking, thermal control, battery protection을 모두 자동화해 24/7 운영을 노렸다.
- 현재 serving 모델은 Gemma4이며 Ollama를 LAN API로 사용 중이라고 밝혔다.
community discussion noted 댓글 방향도 꽤 선명했다. 가장 큰 공감을 얻은 반응은 “바로 이런 consumer-device build를 보고 싶었다”는 쪽이었다. 초대형 VRAM 자랑보다, 평범한 하드웨어에서 돌아가는 local AI 사례가 훨씬 재미있고 실용적이라는 것이다. 또 다른 상위 댓글은 Ollama를 빼고 해당 하드웨어에서 llama.cpp를 직접 컴파일하면 inference speed를 더 끌어올릴 수 있다고 조언했다. 즉 이 thread는 완성된 appliance 소개라기보다, mobile edge node를 더 다듬기 위한 collective tuning session처럼 읽힌다.
이런 종류의 글이 LocalLLaMA에서 계속 반응을 얻는 이유도 분명하다. community는 더 큰 model보다 더 넓은 접근성을 원한다. phone, mini PC, consumer GPU 같은 장비를 local AI의 진짜 배포 타깃으로 보는 사람들에게, 이런 build log는 benchmark보다 훨씬 직접적인 영감을 준다. “좋은 모델이 평범한 장비에서도 돌아가야 한다”는 분위기가 그대로 응축된 thread였다.
Related Articles
LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.
NVIDIA는 2026년 4월 2일 Google의 최신 Gemma 4 모델을 RTX PC, DGX Spark, Jetson edge module에 맞춰 최적화했다고 밝혔다. 핵심은 compact multimodal model을 cloud 바깥의 실제 local agent stack으로 밀어 넣는 데 있다.
HN에서 주목받은 gist는 Apple Silicon Mac mini에서 Ollama와 Gemma 4를 운영하는 실전 설정을 정리했다. 작성자는 `gemma4:26b`가 24GB unified memory를 거의 다 써 기본 8B 모델과 preload/keep-alive 설정이 더 현실적이라고 전했다.
Comments (0)
No comments yet. Be the first to comment!