Hacker News가 다시 끌어올린 완전 로컬 Home Assistant voice stack, llama.cpp와 prompt tuning으로 1~2초 응답

local-first voice assistant를 실제로 굴린 Home Assistant 사례

2026년 3월 16일 Hacker News에서는 Home Assistant community의 상세 구축기가 310 points와 92 comments를 모았다. 흥미로운 점은 이것이 추상적인 'local AI가 가능하다'는 주장에 머물지 않고, 어떤 hardware와 software 조합에서 어느 정도 latency가 나오는지까지 꽤 구체적으로 공개했다는 점이다. 원문은 2025년 10월 27일에 작성됐지만, 이번 HN 스레드로 다시 널리 공유됐다.

작성자는 Google Home과 Nest Mini에서 벗어나, Home Assistant Assist를 local-first stack으로 대체하는 과정을 정리했다. voice server는 USB4 eGPU enclosure가 연결된 Beelink MiniPC를 사용했고, GPU는 RTX 3050부터 RTX 3090, RX 7900XTX까지 시험했다고 적었다. 표에 따르면 RTX 3090 24GB와 RX 7900XTX 24GB에서는 20B~30B MoE 또는 9B dense model로 1~2초 response time이 가능했고, RTX 5060Ti 16GB에서도 1.5~3초 수준이었다. 이 정도면 단순 demo가 아니라 실제 household control에 쓸 수 있는 latency라는 뜻이다.

software stack도 구체적이다. model runner로는 llama.cpp를 권장했고, speech-to-text는 OpenVINO branch의 Wyoming ONNX ASR와 Nvidia Parakeet V2 조합을 약 0.3초 CPU inference 사례와 함께 소개했다. text-to-speech는 Kokoro TTS와 Piper를 비교하고, Home Assistant 쪽 integration으로는 LLM Conversation과 llm-intents를 사용했다. 하지만 글의 핵심은 base model보다 prompt design과 tool routing에 있었다. weather, place search, web search, music playback처럼 자주 쓰는 기능마다 별도 section과 example output을 prompt에 넣어야 했고, 불필요한 emoji나 장황한 문장을 막기 위한 prompt tuning도 반복했다고 설명한다.

흥미로운 부분은 완전한 agent autonomy만 고집하지 않는다는 점이다. music playback은 자연어로 완전히 처리하지 못하자 Play {music} 같은 sentence automation trigger를 만들어 Music Assistant와 직접 연결했다. wake word도 기본 옵션 대신 'Hey Robot'을 선택해 custom microWakeWord model을 학습했다. privacy 우려와 cloud outage 회피가 출발점이었지만, 결과적으로는 local setup이 더 즐겁고 더 reliable하다는 결론으로 이어진다.

이 글이 HN에서 주목받은 이유는 local voice assistant가 이제 막연한 취향이 아니라, 구체적인 component 선택과 prompt engineering으로 충분히 practical해질 수 있음을 보여주기 때문이다. 아직 average user에게는 쉽지 않지만, reproducible blueprint로서의 가치는 크다.

Primary source: Home Assistant community post. Community discussion: Hacker News.

Hacker News가 다시 끌어올린 완전 로컬 Home Assistant voice stack, llama.cpp와 prompt tuning으로 1~2초 응답

local-first voice assistant를 실제로 굴린 Home Assistant 사례

Related Articles

LocalLLaMA가 들썩인 Gemma-4 audio 지원, llama-server에서 STT가 바로 돈다

Qwen3 TTS에 LocalLLaMA 들썩, 로컬 실시간·입 모양까지 붙은 이유

KV cache 양자화, Gemma 4가 먼저 흔들린 이유

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 들썩인 Gemma-4 audio 지원, llama-server에서 STT가 바로 돈다
LLM Reddit Apr 15, 2026 1 min read

Qwen3 TTS에 LocalLLaMA 들썩, 로컬 실시간·입 모양까지 붙은 이유
LLM Reddit Apr 24, 2026 1 min read

KV cache 양자화, Gemma 4가 먼저 흔들린 이유
LocalLLaMA가 이 글에 반응한 이유는 q8_0 KV cache가 늘 무난하다는 통념이 깨졌기 때문이다. Gemma 4는 Qwen 3.6보다 훨씬 빨리 품질이 무너졌고, 스레드는 바로 SWA cache와 긴 context 영향으로 옮겨갔다.