Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目
Original: Fish Audio Releases S2: open-source, controllable and expressive TTS model View original →
なぜLocalLLaMAで反応が大きかったのか
2026年3月9日の r/LocalLLaMA 投稿は、Fish Audio S2の公開 と model card をまとめて取り上げていた。注目点は、単なるTTS checkpointではなく、open release material、fine-tuning code、さらにSGLangベースのstreaming inferenceまで含めて一式で出してきたことにある。
もっとも目立つ特徴はfine-grained inline controlだ。S2は固定された感情ラベルの集合だけでなく、テキスト中に自由形式のnatural-language tagを埋め込み、whisper、laugh、pitch change、broadcast toneのような表現を単語や句の位置単位で制御できると説明している。従来のspeaker conditioningや粗いstyle tokenより、かなり細かい操作面を目指している。
アーキテクチャと数値の読み方
Fish Audioの文書では、S2 ProはRVQベースのaudio codec上にdual-autoregressive構造を採用するとされる。4Bの「slow AR」が時間軸の主要構造を担当し、400Mの「fast AR」が残りのacoustic detailを復元する。これにより、すべてのcodec streamを巨大なautoregressive系列に平坦化する場合の負荷を避けつつ、音質を保つ狙いだという。
公開されている数値は印象的だが、あくまでvendor-reportedである点は必要だ。Fish Audioは、10 million hours超の音声データで学習し、model cardでは80+ languages対応を掲げ、Audio Turing Testで0.515、EmergentTTS-Evalで81.88%のwin rateを報告している。推論面では、NVIDIA H200 1枚で約100 msのtime-to-first-audio、3,000+ acoustic tokens/s、real-time factor 0.195を主張する。
このreleaseが示す広い意味
より重要なのは、Fish AudioがTTSをmodern LLM infrastructureの延長として扱っている点だ。Dual-AR構造がautoregressive language modelの配信最適化と十分に近いため、batching、KV cache、CUDA graph、prefix cachingといったLLM系のserving技法を活用できるとしている。これは「研究用モデル」と「本番向け音声サービス」の距離を縮める方向だ。
ただし、licenseはpermissiveではない。model cardにはFish Audio Research Licenseが記載され、研究・非商用利用は認める一方、商用利用には別途ライセンスが必要だ。それでも、controllability、streaming、multilingual coverageを一体で出してきた点で、S2はopen TTSの重要な節目と見てよい。
原典: Fish Audio blog、model card。コミュニティ議論: r/LocalLLaMA.
Related Articles
Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。
OpenAIはCodex SecurityをCodex web経由でresearch previewとして展開すると発表した。project contextを踏まえて、より高信頼な脆弱性検出とpatch提案を行うapplication security agentという位置づけだ。
Hacker Newsで注目されたエッセイは、chardet 7.0の再ライセンス論争を題材に、AI支援のclean-room再実装は法的に許されても社会的に正当とは限らないと論じている。
Comments (0)
No comments yet. Be the first to comment!