Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
#tts
RSS FeedLocalLLaMA가 이 글에 반응한 이유는 단순한 음성 데모가 아니었다. Qwen3-TTS를 로컬 실시간으로 돌리고, llama.cpp와 단어 단위 정렬까지 붙여 lip sync를 맞춘 구축 기록이 핵심이었다.
Google의 새 speech model은 음성 품질보다 더 어려운 문제인 제어성을 전면에 둔다. Gemini 3.1 Flash TTS는 audio tags, 70+ languages, 1,211 Elo, SynthID watermarking을 함께 내세우며 Gemini API, Google AI Studio, Vertex AI, Google Vids로 풀렸다.
Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.
2026년 3월 r/LocalLLaMA에서 123 points와 25 comments를 얻은 `voxtral-voice-clone` 프로젝트는 Mistral의 Voxtral-4B-TTS-2603에 빠져 있던 codec encoder를 직접 학습해 `ref_audio` 기반 zero-shot voice cloning을 복구하려는 시도다.
LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.
LiveKit는 X에서 xAI의 Grok text-to-speech가 LiveKit Inference에서 low-latency streaming, telephony readiness, 20개 이상 언어 지원과 함께 제공된다고 밝혔다. LiveKit 문서에 따르면 개발자는 별도 xAI API key 없이 `xai/tts-1`을 쓰거나 `XAI_API_KEY` 기반 plugin 경로를 선택할 수 있다.
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.
r/LocalLLaMA에서 주목받은 VoiceShelf는 Kokoro TTS를 이용해 EPUB 책을 Android device에서 완전히 offline 음성으로 바꾸는 app이다. 이 프로젝트는 mobile inference에서 throughput, APK size, thermal behavior가 실제 product성에 어떤 영향을 주는지 잘 보여 준다.
Qwen3의 TTS 모델이 목소리를 1024차원 벡터로 인코딩해 성별·음높이·감정을 수학적으로 조작하는 보이스 임베딩 기능을 지원합니다. 경량 독립형 모델로 추출돼 HuggingFace에 공개됐습니다.
LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.