Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

Original: Fish Audio Releases S2: open-source, controllable and expressive TTS model View original →

Read in other languages: 한국어English
AI Mar 15, 2026 By Insights AI (Reddit) 1 min read 1 views Source

なぜLocalLLaMAで反応が大きかったのか

2026年3月9日の r/LocalLLaMA 投稿は、Fish Audio S2の公開model card をまとめて取り上げていた。注目点は、単なるTTS checkpointではなく、open release material、fine-tuning code、さらにSGLangベースのstreaming inferenceまで含めて一式で出してきたことにある。

もっとも目立つ特徴はfine-grained inline controlだ。S2は固定された感情ラベルの集合だけでなく、テキスト中に自由形式のnatural-language tagを埋め込み、whisper、laugh、pitch change、broadcast toneのような表現を単語や句の位置単位で制御できると説明している。従来のspeaker conditioningや粗いstyle tokenより、かなり細かい操作面を目指している。

アーキテクチャと数値の読み方

Fish Audioの文書では、S2 ProはRVQベースのaudio codec上にdual-autoregressive構造を採用するとされる。4Bの「slow AR」が時間軸の主要構造を担当し、400Mの「fast AR」が残りのacoustic detailを復元する。これにより、すべてのcodec streamを巨大なautoregressive系列に平坦化する場合の負荷を避けつつ、音質を保つ狙いだという。

公開されている数値は印象的だが、あくまでvendor-reportedである点は必要だ。Fish Audioは、10 million hours超の音声データで学習し、model cardでは80+ languages対応を掲げ、Audio Turing Testで0.515、EmergentTTS-Evalで81.88%のwin rateを報告している。推論面では、NVIDIA H200 1枚で約100 msのtime-to-first-audio、3,000+ acoustic tokens/s、real-time factor 0.195を主張する。

このreleaseが示す広い意味

より重要なのは、Fish AudioがTTSをmodern LLM infrastructureの延長として扱っている点だ。Dual-AR構造がautoregressive language modelの配信最適化と十分に近いため、batching、KV cache、CUDA graph、prefix cachingといったLLM系のserving技法を活用できるとしている。これは「研究用モデル」と「本番向け音声サービス」の距離を縮める方向だ。

ただし、licenseはpermissiveではない。model cardにはFish Audio Research Licenseが記載され、研究・非商用利用は認める一方、商用利用には別途ライセンスが必要だ。それでも、controllability、streaming、multilingual coverageを一体で出してきた点で、S2はopen TTSの重要な節目と見てよい。

原典: Fish Audio blogmodel card。コミュニティ議論: r/LocalLLaMA.

Share: Long

Related Articles

AI sources.twitter 5d ago 1 min read

OpenAIはCodex SecurityをCodex web経由でresearch previewとして展開すると発表した。project contextを踏まえて、より高信頼な脆弱性検出とpatch提案を行うapplication security agentという位置づけだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.