Qwen3 TTS에 LocalLLaMA 들썩, 로컬 실시간·입 모양까지 붙은 이유
Original: Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried View original →
LocalLLaMA는 또 하나의 TTS 데모라서 이 글을 밀어 올린 것이 아니다. 이 스레드가 먹힌 이유는 작성자가 Qwen3-TTS를 로컬 실시간으로 돌렸다고만 말한 게 아니라, 그 과정에서 무엇을 뜯어고쳤는지 꽤 구체적으로 적었기 때문이다. 스트리밍을 안정화하고, llama.cpp에 얹고, 단어 단위 정렬까지 붙여 자막과 입 모양을 맞췄다는 설명은 이 커뮤니티가 가장 신뢰하는 종류의 보고서다.
공식 Qwen3-TTS 자료도 이 반응을 뒷받침한다. Qwen은 Qwen3-TTS가 한국어·영어·일본어를 포함한 10개 주요 언어를 지원하고, 자연어 지시로 감정과 억양을 제어하며, 첫 오디오 패킷 지연을 97ms 수준까지 낮춘 streaming generation을 제공한다고 설명한다. base 모델은 짧은 reference audio로 rapid voice clone도 지원한다. 작성자는 여기에 한 걸음 더 들어가서, 슬라이딩 윈도우 decoder 덕분에 텍스트가 청크로 들어와도 prosody와 intonation이 무너지지 않는다고 적었다. 공식 모델 정보는 Qwen3-TTS 페이지에서 확인할 수 있다.
실제로 커뮤니티를 움직인 건 제품 설명보다 구축기의 디테일이다. 작성자는 C# 기반 환경에서 속도가 중요해 llama.cpp 경로를 택했고, 자막과 입 모양을 맞추기 위해 CTC 기반 word-level alignment를 직접 넣었다고 밝혔다. 또 기본 제공 voice cloning은 발음과 문맥 이해가 아쉬워 커스텀 voice fine-tuning까지 진행했다. 연결된 Persona Engine 저장소를 보면 현재 완성형 스택이 Windows x64와 NVIDIA CUDA를 요구한다는 현실도 바로 드러난다. 댓글 상단에 Mac 지원 여부, 필요한 GPU, 빠른 속도가 어떤 최적화에서 오는지 묻는 질문이 붙은 이유다.
이 스레드가 커진 이유는 모델 자체보다 시스템 완성도에 있다. LocalLLaMA는 모델 공개 소식에 익숙하지만, 실제로 쓸 수 있는 로컬 파이프라인 이야기에 더 강하게 반응한다. 이번엔 "Qwen이 TTS 모델을 냈다"가 아니라 "누군가 그 모델을 실시간 아바타 파이프라인에 엮어 expressive speech와 lip sync를 동시에 맞췄다"가 핵심이었다. 원문은 Reddit 스레드에서, 원본 모델 정보는 Qwen3-TTS 페이지에서 볼 수 있다.
Related Articles
patched llama.cpp로 Qwen 3.5-9B를 MacBook Air M4 16 GB와 20,000-token context에서 돌렸다는 LocalLLaMA 게시물은 이번 2026년 4월 4일 크롤링에서 1,159 upvotes와 193 comments를 기록했고, TurboQuant를 단순 연구 뉴스가 아닌 실제 local inference 화제로 끌어올렸다.
r/LocalLLaMA에서 CPU 메모리로 offload한 가중치를 미리 가져와 prompt 처리 속도를 끌어올리려는 llama.cpp 실험이 주목을 받았다. 긴 context에서 hybrid CPU/GPU 추론의 병목을 줄이려는 시도다.
HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.
Comments (0)
No comments yet. Be the first to comment!