Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

なぜLocalLLaMAで反応が大きかったのか

2026年3月9日の r/LocalLLaMA 投稿は、Fish Audio S2の公開と model card をまとめて取り上げていた。注目点は、単なるTTS checkpointではなく、open release material、fine-tuning code、さらにSGLangベースのstreaming inferenceまで含めて一式で出してきたことにある。

もっとも目立つ特徴はfine-grained inline controlだ。S2は固定された感情ラベルの集合だけでなく、テキスト中に自由形式のnatural-language tagを埋め込み、whisper、laugh、pitch change、broadcast toneのような表現を単語や句の位置単位で制御できると説明している。従来のspeaker conditioningや粗いstyle tokenより、かなり細かい操作面を目指している。

アーキテクチャと数値の読み方

Fish Audioの文書では、S2 ProはRVQベースのaudio codec上にdual-autoregressive構造を採用するとされる。4Bの「slow AR」が時間軸の主要構造を担当し、400Mの「fast AR」が残りのacoustic detailを復元する。これにより、すべてのcodec streamを巨大なautoregressive系列に平坦化する場合の負荷を避けつつ、音質を保つ狙いだという。

公開されている数値は印象的だが、あくまでvendor-reportedである点は必要だ。Fish Audioは、10 million hours超の音声データで学習し、model cardでは80+ languages対応を掲げ、Audio Turing Testで0.515、EmergentTTS-Evalで81.88%のwin rateを報告している。推論面では、NVIDIA H200 1枚で約100 msのtime-to-first-audio、3,000+ acoustic tokens/s、real-time factor 0.195を主張する。

このreleaseが示す広い意味

より重要なのは、Fish AudioがTTSをmodern LLM infrastructureの延長として扱っている点だ。Dual-AR構造がautoregressive language modelの配信最適化と十分に近いため、batching、KV cache、CUDA graph、prefix cachingといったLLM系のserving技法を活用できるとしている。これは「研究用モデル」と「本番向け音声サービス」の距離を縮める方向だ。

ただし、licenseはpermissiveではない。model cardにはFish Audio Research Licenseが記載され、研究・非商用利用は認める一方、商用利用には別途ライセンスが必要だ。それでも、controllability、streaming、multilingual coverageを一体で出してきた点で、S2はopen TTSの重要な節目と見てよい。

原典: Fish Audio blog、model card。コミュニティ議論: r/LocalLLaMA.

Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

なぜLocalLLaMAで反応が大きかったのか

アーキテクチャと数値の読み方

このreleaseが示す広い意味

Related Articles

NVIDIA、AI防御を公開ツール連合へ　MicrosoftやCloudflareも参加

OpenAI、音声認識APIをfile用とlive用へ分離　GPT TranscribeがGA

VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」

Related Articles

NVIDIA、AI防御を公開ツール連合へ　MicrosoftやCloudflareも参加

OpenAI、音声認識APIをfile用とlive用へ分離　GPT TranscribeがGA
OpenAIは2026年7月28日、GPT TranscribeとGPT Live TranscribeをGAにした。completed file向けとlive audio向けを分け、keyword hintと複数language hintを新しい推奨経路に置く。

VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」
AI Hacker News Apr 29, 2026 1 min read

なぜLocalLLaMAで反応が大きかったのか

アーキテクチャと数値の読み方

このreleaseが示す広い意味

Related Articles

NVIDIA、AI防御を公開ツール連合へ MicrosoftやCloudflareも参加

OpenAI、音声認識APIをfile用とlive用へ分離 GPT TranscribeがGA

VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」

NVIDIA、AI防御を公開ツール連合へ　MicrosoftやCloudflareも参加

OpenAI、音声認識APIをfile用とlive用へ分離　GPT TranscribeがGA