HNの反応は「また音声モデルが来た」よりも、「今回は何が公開されたのか」を確かめる方向に向いた。VibeVoiceは長時間ASRとリアルタイムTTSを前面に出す一方、コミュニティは過去のコード撤回と現在の公開範囲を先に見にいった。
#tts
RSS FeedLocalLLaMAが反応したのは単なる音声デモではなかった。Qwen3-TTSをローカル実時間で動かし、llama.cppと単語単位アラインメントまで組み合わせた実装記録だった。
Googleの新しいspeech modelは、きれいに読むだけでなく、声の出し方をテキストで細かく動かす方向へ踏み込んだ。Gemini 3.1 Flash TTSはaudio tags、70+ languages、Artificial Analysisの1,211 Elo、SynthID watermarkingを掲げ、Gemini API、Google AI Studio、Vertex AI、Google Vidsに入る。
Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。
2026年3月にr/LocalLLaMAで123 pointsと25 commentsを集めた `voxtral-voice-clone` は、MistralのVoxtral-4B-TTS-2603から欠けていたcodec encoderを学習し、`ref_audio` を使う zero-shot voice cloning を復元しようとするプロジェクトだ。
LocalLLaMAが強く反応したのは明確だ。Mistralが低latency、多言語対応、open weightsを同時に出し、まだ閉じがちなspeech layerに実用的な選択肢を持ち込んだからだ。
LiveKitはXで、xAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。low-latency streaming、telephony readiness、20超の言語対応に加え、LiveKitの文書では別のxAI API keyなしで`xai/tts-1`を使う方法と、`XAI_API_KEY`ベースのplugin経路が案内されている。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
r/LocalLLaMAで注目されたVoiceShelfは、Kokoro TTSを使ってEPUBをAndroid device上で完全offlineの音声に変えるappだ。このprojectは、mobile inferenceにおけるthroughput、APK size、thermal behaviorが実用的なoffline AI productをどう左右するかをよく示している。
Qwen3のTTSモデルは声を1024次元ベクトルにエンコードし、性別変換・音高調整・感情空間生成などの数学的な音声操作を可能にします。軽量なスタンドアロンエンコーダーとしてHuggingFaceで公開されています。
LocalLLaMAの高反応投稿でKitten TTS v0.8が注目を集めた。80M/40M/14Mの公開モデルとCPU実行、最小25MB未満という軽量性が論点になっている。