Hacker News가 다시 끌어올린 완전 로컬 Home Assistant voice stack, llama.cpp와 prompt tuning으로 1~2초 응답
Original: My Journey to a reliable and enjoyable locally hosted voice assistant (2025) View original →
local-first voice assistant를 실제로 굴린 Home Assistant 사례
2026년 3월 16일 Hacker News에서는 Home Assistant community의 상세 구축기가 310 points와 92 comments를 모았다. 흥미로운 점은 이것이 추상적인 'local AI가 가능하다'는 주장에 머물지 않고, 어떤 hardware와 software 조합에서 어느 정도 latency가 나오는지까지 꽤 구체적으로 공개했다는 점이다. 원문은 2025년 10월 27일에 작성됐지만, 이번 HN 스레드로 다시 널리 공유됐다.
작성자는 Google Home과 Nest Mini에서 벗어나, Home Assistant Assist를 local-first stack으로 대체하는 과정을 정리했다. voice server는 USB4 eGPU enclosure가 연결된 Beelink MiniPC를 사용했고, GPU는 RTX 3050부터 RTX 3090, RX 7900XTX까지 시험했다고 적었다. 표에 따르면 RTX 3090 24GB와 RX 7900XTX 24GB에서는 20B~30B MoE 또는 9B dense model로 1~2초 response time이 가능했고, RTX 5060Ti 16GB에서도 1.5~3초 수준이었다. 이 정도면 단순 demo가 아니라 실제 household control에 쓸 수 있는 latency라는 뜻이다.
software stack도 구체적이다. model runner로는 llama.cpp를 권장했고, speech-to-text는 OpenVINO branch의 Wyoming ONNX ASR와 Nvidia Parakeet V2 조합을 약 0.3초 CPU inference 사례와 함께 소개했다. text-to-speech는 Kokoro TTS와 Piper를 비교하고, Home Assistant 쪽 integration으로는 LLM Conversation과 llm-intents를 사용했다. 하지만 글의 핵심은 base model보다 prompt design과 tool routing에 있었다. weather, place search, web search, music playback처럼 자주 쓰는 기능마다 별도 section과 example output을 prompt에 넣어야 했고, 불필요한 emoji나 장황한 문장을 막기 위한 prompt tuning도 반복했다고 설명한다.
흥미로운 부분은 완전한 agent autonomy만 고집하지 않는다는 점이다. music playback은 자연어로 완전히 처리하지 못하자 Play {music} 같은 sentence automation trigger를 만들어 Music Assistant와 직접 연결했다. wake word도 기본 옵션 대신 'Hey Robot'을 선택해 custom microWakeWord model을 학습했다. privacy 우려와 cloud outage 회피가 출발점이었지만, 결과적으로는 local setup이 더 즐겁고 더 reliable하다는 결론으로 이어진다.
이 글이 HN에서 주목받은 이유는 local voice assistant가 이제 막연한 취향이 아니라, 구체적인 component 선택과 prompt engineering으로 충분히 practical해질 수 있음을 보여주기 때문이다. 아직 average user에게는 쉽지 않지만, reproducible blueprint로서의 가치는 크다.
Primary source: Home Assistant community post. Community discussion: Hacker News.
Related Articles
새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.
r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.
Launch HN 스레드로 RunAnywhere의 RCLI가 부각됐다. 이 프로젝트는 Apple Silicon에서 STT, LLM, TTS, 로컬 RAG, 38개 macOS action을 모두 로컬로 묶어 macOS용 Voice AI를 구축하려는 시도다.
Comments (0)
No comments yet. Be the first to comment!