#tts

RSS Feed

AI Hacker News Apr 29, 2026 1 min read

VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」

HNの反応は「また音声モデルが来た」よりも、「今回は何が公開されたのか」を確かめる方向に向いた。VibeVoiceは長時間ASRとリアルタイムTTSを前面に出す一方、コミュニティは過去のコード撤回と現在の公開範囲を先に見にいった。

#voice-ai #asr #tts

LLM Reddit Apr 24, 2026 1 min read

Qwen3 TTSでLocalLLaMAが沸いた理由ローカル実時間と口パク同期まで届いた

LocalLLaMAが反応したのは単なる音声デモではなかった。Qwen3-TTSをローカル実時間で動かし、llama.cppと単語単位アラインメントまで組み合わせた実装記録だった。

#qwen #tts #llama.cpp

AI Apr 16, 2026 1 min read

Gemini 3.1 Flash TTS、audio tagsと70+ languagesで音声制御を広げた

Googleの新しいspeech modelは、きれいに読むだけでなく、声の出し方をテキストで細かく動かす方向へ踏み込んだ。Gemini 3.1 Flash TTSはaudio tags、70+ languages、Artificial Analysisの1,211 Elo、SynthID watermarkingを掲げ、Gemini API、Google AI Studio、Vertex AI、Google Vidsに入る。

#gemini #tts #speech-ai

AI X/Twitter Apr 5, 2026 1 min read

Mistral、低遅延の多言語音声エージェント向けに Voxtral TTS を公開

Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。

#mistral #tts #voice-agents

LLM Reddit Mar 29, 2026 1 min read

LocalLLaMAが注目したVoxtral音声クローニング復元、Mistral TTSの空白を埋める試み

2026年3月にr/LocalLLaMAで123 pointsと25 commentsを集めた `voxtral-voice-clone` は、MistralのVoxtral-4B-TTS-2603から欠けていたcodec encoderを学習し、`ref_audio` を使う zero-shot voice cloning を復元しようとするプロジェクトだ。

#tts #voice-cloning #mistral

AI Reddit Mar 27, 2026 1 min read

MistralのVoxtral TTS、open-weight speech generationをもう一度local AI stackの中心へ

LocalLLaMAが強く反応したのは明確だ。Mistralが低latency、多言語対応、open weightsを同時に出し、まだ閉じがちなspeech layerに実用的な選択肢を持ち込んだからだ。

#mistral #tts #speech

AI X/Twitter Mar 20, 2026 1 min read

LiveKit、xAI TTSをInferenceに追加し20超の言語と別APIキー不要の経路を提供

LiveKitはXで、xAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。low-latency streaming、telephony readiness、20超の言語対応に加え、LiveKitの文書では別のxAI API keyなしで`xai/tts-1`を使う方法と、`XAI_API_KEY`ベースのplugin経路が案内されている。

#livekit #xai #tts

AI Hacker News Mar 20, 2026 1 min read

Hacker Newsで注目された超小型CPU向けTTS、Kitten TTS v0.8

Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。

#tts #onnx #edge-ai

AI Reddit Mar 15, 2026 1 min read

Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。

#tts #speech #audio

AI Reddit Mar 9, 2026 1 min read

r/LocalLLaMA: VoiceShelfがAndroidでKokoro TTSを使いEPUB audiobookをoffline生成

r/LocalLLaMAで注目されたVoiceShelfは、Kokoro TTSを使ってEPUBをAndroid device上で完全offlineの音声に変えるappだ。このprojectは、mobile inferenceにおけるthroughput、APK size、thermal behaviorが実用的なoffline AI productをどう左右するかをよく示している。

#on-device-ai #tts #android

LLM Reddit Feb 23, 2026 1 min read