Gemini 3.1 Flash TTS, audio tags와 70+ languages로 음성 제어 넓혔다
Original: Gemini 3.1 Flash TTS: the next generation of expressive AI speech View original →
Gemini 3.1 Flash TTS의 핵심은 단순히 더 자연스럽게 읽는 TTS가 아니라, 개발자가 음성의 톤과 속도, 화자 전환을 텍스트 안에서 직접 지시할 수 있게 만든 점이다. Google은 4월 15일 게시물에서 새 모델이 audio tags를 도입해 vocal style, pace, delivery를 자연어 명령으로 조정할 수 있다고 설명했다. 음성 합성 경쟁이 품질 점수에서 제작 워크플로로 넘어가는 순간에 가까운 변화다.
배포 범위도 데모에 머물지 않는다. 3.1 Flash TTS는 developers에게 Gemini API와 Google AI Studio preview로 제공되고, enterprise 고객에게는 Vertex AI preview로 열린다. Workspace 사용자는 Google Vids 안에서 이 모델을 접한다. 한 모델이 실험, 엔터프라이즈 배포, 문서 기반 영상 제작까지 동시에 들어가는 구조라서, voice agent와 localization 팀이 같은 기반을 놓고 테스트할 수 있다.
Google이 강조한 숫자는 두 가지다. 첫째, 3.1 Flash TTS는 70+ languages를 지원한다. 둘째, Artificial Analysis TTS leaderboard에서 Elo 1,211을 기록했다. 여기에 native multi-speaker dialogue와 Audio Profiles, Director's Notes 같은 설정이 붙는다. 사용자는 장면 설명을 넣고, 화자별 말투를 정하고, 문장 중간에 inline tags로 감정을 바꾸는 식의 세밀한 제어를 시도할 수 있다.
안전 장치도 기사에서 중요한 대목이다. Google은 Gemini 3.1 Flash TTS가 생성한 모든 audio에 SynthID watermark를 넣어 AI-generated content 식별을 돕는다고 밝혔다. 앞으로 볼 지점은 이 watermark가 실제 유통 환경에서 얼마나 견고하게 작동하는지, 그리고 70+ languages 지원이 저자원 언어에서도 충분한 품질과 제어성을 내는지다. 출처: Google Keyword.
개발자가 실제로 확인해야 할 경계는 consistency다. 짧은 demo voice는 인상적일 수 있지만, 제품 음성은 재시도, speaker 변경, localization 과정에서도 같은 persona를 유지해야 한다. Audio Profiles와 inline instructions를 prompt 근처에 두려는 설계는 이 제어를 별도 studio layer에 숨기지 않고 검토 가능한 형태로 만드는 시도다.
Related Articles
LocalLLaMA의 관심은 “더 큰 챗봇”이 아니라 작고 정확한 모델로 향했다. YOLO, LightGBM, Parakeet, OCR처럼 매일 쓰는 좁은 AI가 오히려 비용과 신뢰성에서 강하다는 사례가 쏟아졌다.
Hacker News에서 화제가 된 GitHub 저장소는 Gemini 이미지의 SynthID watermark를 신호 처리만으로 감지하고 약화할 수 있다고 주장했다. 다만 토론은 성과 자체보다 Google의 공식 detector와 맞대조하지 않았다는 점, 그리고 watermark 기반 provenance가 본질적으로 얼마나 취약한지에 더 집중됐다.
Google은 2026년 2월 18일 Gemini 앱에 Lyria 3 기반 음악 생성 기능을 베타로 출시했다. 사용자는 텍스트나 이미지로 30초 트랙을 만들 수 있고, 결과물에는 SynthID 워터마크가 적용된다.