Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목

왜 LocalLLaMA가 이 release에 주목했나

2026년 3월 9일 r/LocalLLaMA에 올라온 글은 Fish Audio S2 공개와 모델 카드를 함께 가리켰다. 관심을 받은 이유는 단순한 TTS checkpoint 하나가 아니라, open release material, fine-tuning code, 그리고 SGLang 기반 streaming inference까지 한 세트로 제시했기 때문이다.

가장 눈에 띄는 기능은 fine-grained inline control이다. S2는 고정된 감정 토큰 몇 개에 의존하지 않고, 텍스트 안에 자유 형식의 natural-language tag를 삽입해 whisper, laugh, pitch change, broadcast tone 같은 표현을 단어·구절 단위로 조정할 수 있다고 설명한다. 기존 TTS의 speaker conditioning이나 거친 style token보다 제어 인터페이스가 훨씬 세밀한 셈이다.

아키텍처와 수치가 보여주는 것

Fish Audio 문서에 따르면 S2 Pro는 RVQ 기반 audio codec 위에 dual-autoregressive 구조를 올렸다. 4B 규모의 “slow AR” 경로가 시간축의 주요 구조를 담당하고, 400M 규모의 “fast AR” 경로가 잔여 acoustic detail을 복원한다. 회사 설명은 이렇게 하면 모든 codec stream을 하나의 긴 autoregressive 시퀀스로 평탄화할 때 생기는 비용을 줄이면서도 품질을 유지할 수 있다는 쪽이다.

공개 수치는 강하지만 공급사 발표라는 점은 감안해야 한다. Fish Audio는 10 million hour가 넘는 오디오 데이터로 학습했고, 모델 카드 기준 80+ languages를 지원하며, Audio Turing Test posterior mean 0.515와 EmergentTTS-Eval 81.88% win rate를 제시한다. 서빙 측면에서는 NVIDIA H200 한 장에서 약 100 ms time-to-first-audio, 3,000+ acoustic tokens/s, real-time factor 0.195를 주장한다.

왜 모델 하나 이상의 의미가 있나

더 중요한 포인트는 Fish Audio가 TTS를 modern LLM infrastructure처럼 다루고 있다는 점이다. Dual-AR 구조가 autoregressive language model과 충분히 닮아 있어 batching, KV cache, CUDA graph, prefix caching 같은 LLM serving 최적화를 거의 그대로 가져올 수 있다고 설명한다. 이는 “연구용 모델”과 “프로덕션 음성 서비스” 사이 간극을 줄이는 방향이다.

다만 라이선스는 permissive하지 않다. 모델 카드는 Fish Audio Research License를 명시하며, 연구·비상업 사용은 허용하지만 상업 사용에는 별도 라이선스가 필요하다고 적고 있다. 그 제한을 감안해도 S2는 controllability, streaming, multilingual coverage를 동시에 묶어낸 점에서 중요한 오픈 모델 이정표로 볼 수 있다.

원문: Fish Audio blog, model card. 커뮤니티 반응: r/LocalLLaMA.

Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목

왜 LocalLLaMA가 이 release에 주목했나

아키텍처와 수치가 보여주는 것

왜 모델 하나 이상의 의미가 있나

Related Articles

“Open source AI must win”, Local AI 논쟁이 다시 뜨거운 이유

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개

Related Articles

“Open source AI must win”, Local AI 논쟁이 다시 뜨거운 이유

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8
AI Hacker News Mar 20, 2026 1 min read

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개
AI X/Twitter Apr 5, 2026 1 min read