Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目
Original: Fish Audio Releases S2: open-source, controllable and expressive TTS model View original →
なぜLocalLLaMAで反応が大きかったのか
2026年3月9日の r/LocalLLaMA 投稿は、Fish Audio S2の公開 と model card をまとめて取り上げていた。注目点は、単なるTTS checkpointではなく、open release material、fine-tuning code、さらにSGLangベースのstreaming inferenceまで含めて一式で出してきたことにある。
もっとも目立つ特徴はfine-grained inline controlだ。S2は固定された感情ラベルの集合だけでなく、テキスト中に自由形式のnatural-language tagを埋め込み、whisper、laugh、pitch change、broadcast toneのような表現を単語や句の位置単位で制御できると説明している。従来のspeaker conditioningや粗いstyle tokenより、かなり細かい操作面を目指している。
アーキテクチャと数値の読み方
Fish Audioの文書では、S2 ProはRVQベースのaudio codec上にdual-autoregressive構造を採用するとされる。4Bの「slow AR」が時間軸の主要構造を担当し、400Mの「fast AR」が残りのacoustic detailを復元する。これにより、すべてのcodec streamを巨大なautoregressive系列に平坦化する場合の負荷を避けつつ、音質を保つ狙いだという。
公開されている数値は印象的だが、あくまでvendor-reportedである点は必要だ。Fish Audioは、10 million hours超の音声データで学習し、model cardでは80+ languages対応を掲げ、Audio Turing Testで0.515、EmergentTTS-Evalで81.88%のwin rateを報告している。推論面では、NVIDIA H200 1枚で約100 msのtime-to-first-audio、3,000+ acoustic tokens/s、real-time factor 0.195を主張する。
このreleaseが示す広い意味
より重要なのは、Fish AudioがTTSをmodern LLM infrastructureの延長として扱っている点だ。Dual-AR構造がautoregressive language modelの配信最適化と十分に近いため、batching、KV cache、CUDA graph、prefix cachingといったLLM系のserving技法を活用できるとしている。これは「研究用モデル」と「本番向け音声サービス」の距離を縮める方向だ。
ただし、licenseはpermissiveではない。model cardにはFish Audio Research Licenseが記載され、研究・非商用利用は認める一方、商用利用には別途ライセンスが必要だ。それでも、controllability、streaming、multilingual coverageを一体で出してきた点で、S2はopen TTSの重要な節目と見てよい。
原典: Fish Audio blog、model card。コミュニティ議論: r/LocalLLaMA.
Related Articles
HNの反応は「また音声モデルが来た」よりも、「今回は何が公開されたのか」を確かめる方向に向いた。VibeVoiceは長時間ASRとリアルタイムTTSを前面に出す一方、コミュニティは過去のコード撤回と現在の公開範囲を先に見にいった。
Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。
CohereはApache 2.0の2B ASRモデルTranscribeを公開し、音声認識分野で存在感を強めている。14言語対応、Hugging Faceでの配布、そして平均WER 5.42という主張がリリースの柱だ。
Comments (0)
No comments yet. Be the first to comment!