#tts

AI Hacker News Apr 28, 2026 2 min read

Microsoft VibeVoice, HN이 물고 늘어진 건 “오픈소스”라는 표현

Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.

#microsoft #voice-ai #asr

LLM Reddit Apr 24, 2026 1 min read

Qwen3 TTS에 LocalLLaMA 들썩, 로컬 실시간·입 모양까지 붙은 이유

LocalLLaMA가 이 글에 반응한 이유는 단순한 음성 데모가 아니었다. Qwen3-TTS를 로컬 실시간으로 돌리고, llama.cpp와 단어 단위 정렬까지 붙여 lip sync를 맞춘 구축 기록이 핵심이었다.

#qwen #tts #llama.cpp

AI Apr 16, 2026 1 min read

Gemini 3.1 Flash TTS, audio tags와 70+ languages로 음성 제어 넓혔다

Google의 새 speech model은 음성 품질보다 더 어려운 문제인 제어성을 전면에 둔다. Gemini 3.1 Flash TTS는 audio tags, 70+ languages, 1,211 Elo, SynthID watermarking을 함께 내세우며 Gemini API, Google AI Studio, Vertex AI, Google Vids로 풀렸다.

#gemini #tts #speech-ai

AI X/Twitter Apr 5, 2026 1 min read

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개

Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.

#mistral #tts #voice-agents

LLM Reddit Mar 29, 2026 2 min read

LocalLLaMA가 주목한 Voxtral 보이스 클로닝 복원 시도, Mistral TTS의 빈칸을 메우려는 프로젝트

2026년 3월 r/LocalLLaMA에서 123 points와 25 comments를 얻은 `voxtral-voice-clone` 프로젝트는 Mistral의 Voxtral-4B-TTS-2603에 빠져 있던 codec encoder를 직접 학습해 `ref_audio` 기반 zero-shot voice cloning을 복구하려는 시도다.

#tts #voice-cloning #mistral

AI Reddit Mar 27, 2026 1 min read

Mistral Voxtral TTS, open-weight speech generation을 다시 local AI stack의 중심으로

LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.

#mistral #tts #speech

AI X/Twitter Mar 20, 2026 1 min read

LiveKit, xAI TTS를 Inference에 추가해 20개 이상 언어와 무별도 키 경로 제공

LiveKit는 X에서 xAI의 Grok text-to-speech가 LiveKit Inference에서 low-latency streaming, telephony readiness, 20개 이상 언어 지원과 함께 제공된다고 밝혔다. LiveKit 문서에 따르면 개발자는 별도 xAI API key 없이 `xai/tts-1`을 쓰거나 `XAI_API_KEY` 기반 plugin 경로를 선택할 수 있다.

#livekit #xai #tts

AI Hacker News Mar 20, 2026 1 min read

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8

Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.

#tts #onnx #edge-ai

AI Reddit Mar 15, 2026 1 min read

Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목

2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.

#tts #speech #audio

AI Reddit Mar 9, 2026 1 min read

r/LocalLLaMA: VoiceShelf, Android에서 Kokoro TTS로 EPUB audiobook를 offline 처리

r/LocalLLaMA에서 주목받은 VoiceShelf는 Kokoro TTS를 이용해 EPUB 책을 Android device에서 완전히 offline 음성으로 바꾸는 app이다. 이 프로젝트는 mobile inference에서 throughput, APK size, thermal behavior가 실제 product성에 어떤 영향을 주는지 잘 보여 준다.

#on-device-ai #tts #android

LLM Reddit Feb 23, 2026 1 min read

Qwen3 TTS의 숨겨진 기능: 수학으로 목소리를 조작하는 보이스 임베딩

Qwen3의 TTS 모델이 목소리를 1024차원 벡터로 인코딩해 성별·음높이·감정을 수학적으로 조작하는 보이스 임베딩 기능을 지원합니다. 경량 독립형 모델로 추출돼 HuggingFace에 공개됐습니다.

#qwen3 #tts #voice-embeddings

AI Reddit Feb 21, 2026 1 min read

Reddit 주목: KittenTTS v0.8, CPU·엣지 배포를 겨냥한 초경량 오픈 TTS 스택

LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.

#tts #edge-ai #open-source