Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목
Original: Fish Audio Releases S2: open-source, controllable and expressive TTS model View original →
왜 LocalLLaMA가 이 release에 주목했나
2026년 3월 9일 r/LocalLLaMA에 올라온 글은 Fish Audio S2 공개와 모델 카드를 함께 가리켰다. 관심을 받은 이유는 단순한 TTS checkpoint 하나가 아니라, open release material, fine-tuning code, 그리고 SGLang 기반 streaming inference까지 한 세트로 제시했기 때문이다.
가장 눈에 띄는 기능은 fine-grained inline control이다. S2는 고정된 감정 토큰 몇 개에 의존하지 않고, 텍스트 안에 자유 형식의 natural-language tag를 삽입해 whisper, laugh, pitch change, broadcast tone 같은 표현을 단어·구절 단위로 조정할 수 있다고 설명한다. 기존 TTS의 speaker conditioning이나 거친 style token보다 제어 인터페이스가 훨씬 세밀한 셈이다.
아키텍처와 수치가 보여주는 것
Fish Audio 문서에 따르면 S2 Pro는 RVQ 기반 audio codec 위에 dual-autoregressive 구조를 올렸다. 4B 규모의 “slow AR” 경로가 시간축의 주요 구조를 담당하고, 400M 규모의 “fast AR” 경로가 잔여 acoustic detail을 복원한다. 회사 설명은 이렇게 하면 모든 codec stream을 하나의 긴 autoregressive 시퀀스로 평탄화할 때 생기는 비용을 줄이면서도 품질을 유지할 수 있다는 쪽이다.
공개 수치는 강하지만 공급사 발표라는 점은 감안해야 한다. Fish Audio는 10 million hour가 넘는 오디오 데이터로 학습했고, 모델 카드 기준 80+ languages를 지원하며, Audio Turing Test posterior mean 0.515와 EmergentTTS-Eval 81.88% win rate를 제시한다. 서빙 측면에서는 NVIDIA H200 한 장에서 약 100 ms time-to-first-audio, 3,000+ acoustic tokens/s, real-time factor 0.195를 주장한다.
왜 모델 하나 이상의 의미가 있나
더 중요한 포인트는 Fish Audio가 TTS를 modern LLM infrastructure처럼 다루고 있다는 점이다. Dual-AR 구조가 autoregressive language model과 충분히 닮아 있어 batching, KV cache, CUDA graph, prefix caching 같은 LLM serving 최적화를 거의 그대로 가져올 수 있다고 설명한다. 이는 “연구용 모델”과 “프로덕션 음성 서비스” 사이 간극을 줄이는 방향이다.
다만 라이선스는 permissive하지 않다. 모델 카드는 Fish Audio Research License를 명시하며, 연구·비상업 사용은 허용하지만 상업 사용에는 별도 라이선스가 필요하다고 적고 있다. 그 제한을 감안해도 S2는 controllability, streaming, multilingual coverage를 동시에 묶어낸 점에서 중요한 오픈 모델 이정표로 볼 수 있다.
원문: Fish Audio blog, model card. 커뮤니티 반응: r/LocalLLaMA.
Related Articles
Mistral은 Voxtral Realtime와 Voxtral Mini Transcribe V2를 공개하며 sub-200ms streaming transcription, 13개 언어 지원, realtime model의 open weights를 내놓았다. 동시에 Mistral Studio의 audio playground와 $0.003/min·$0.006/min pricing도 함께 제시했다.
OpenAI는 Codex Security를 Codex web을 통해 research preview로 배포한다고 밝혔다. 이 도구는 프로젝트 문맥을 반영해 더 높은 신뢰도의 취약점과 패치를 제시하는 application security agent로 소개됐다.
Hacker News에서 주목받은 에세이는 chardet 7.0 재라이선스 논쟁을 사례로, AI 기반 clean-room 재구현이 법적으로 가능하더라도 사회적으로 정당하다고 볼 수 있는지는 별개의 문제라고 짚었다.
Comments (0)
No comments yet. Be the first to comment!