Gemini 3.1 Flash TTS, audio tags와 70+ languages로 음성 제어 넓혔다

Gemini 3.1 Flash TTS의 핵심은 단순히 더 자연스럽게 읽는 TTS가 아니라, 개발자가 음성의 톤과 속도, 화자 전환을 텍스트 안에서 직접 지시할 수 있게 만든 점이다. Google은 4월 15일 게시물에서 새 모델이 audio tags를 도입해 vocal style, pace, delivery를 자연어 명령으로 조정할 수 있다고 설명했다. 음성 합성 경쟁이 품질 점수에서 제작 워크플로로 넘어가는 순간에 가까운 변화다.

배포 범위도 데모에 머물지 않는다. 3.1 Flash TTS는 developers에게 Gemini API와 Google AI Studio preview로 제공되고, enterprise 고객에게는 Vertex AI preview로 열린다. Workspace 사용자는 Google Vids 안에서 이 모델을 접한다. 한 모델이 실험, 엔터프라이즈 배포, 문서 기반 영상 제작까지 동시에 들어가는 구조라서, voice agent와 localization 팀이 같은 기반을 놓고 테스트할 수 있다.

Google이 강조한 숫자는 두 가지다. 첫째, 3.1 Flash TTS는 70+ languages를 지원한다. 둘째, Artificial Analysis TTS leaderboard에서 Elo 1,211을 기록했다. 여기에 native multi-speaker dialogue와 Audio Profiles, Director's Notes 같은 설정이 붙는다. 사용자는 장면 설명을 넣고, 화자별 말투를 정하고, 문장 중간에 inline tags로 감정을 바꾸는 식의 세밀한 제어를 시도할 수 있다.

안전 장치도 기사에서 중요한 대목이다. Google은 Gemini 3.1 Flash TTS가 생성한 모든 audio에 SynthID watermark를 넣어 AI-generated content 식별을 돕는다고 밝혔다. 앞으로 볼 지점은 이 watermark가 실제 유통 환경에서 얼마나 견고하게 작동하는지, 그리고 70+ languages 지원이 저자원 언어에서도 충분한 품질과 제어성을 내는지다. 출처: Google Keyword.

개발자가 실제로 확인해야 할 경계는 consistency다. 짧은 demo voice는 인상적일 수 있지만, 제품 음성은 재시도, speaker 변경, localization 과정에서도 같은 persona를 유지해야 한다. Audio Profiles와 inline instructions를 prompt 근처에 두려는 설계는 이 제어를 별도 studio layer에 숨기지 않고 검토 가능한 형태로 만드는 시도다.

Gemini 3.1 Flash TTS, audio tags와 70+ languages로 음성 제어 넓혔다

Related Articles

Gemini SynthID 우회 저장소, Hacker News에서 검증과 한계를 함께 논하다

Gemini 앱, Lyria 3 기반 음악 생성 베타 시작…텍스트·이미지로 30초 트랙 제작

Google Gemini 앱, Lyria 3 기반 30초 음악 생성 기능 공개

Related Articles

Gemini SynthID 우회 저장소, Hacker News에서 검증과 한계를 함께 논하다
AI Hacker News Apr 10, 2026 1 min read

Gemini 앱, Lyria 3 기반 음악 생성 베타 시작…텍스트·이미지로 30초 트랙 제작
AI Feb 28, 2026 2 min read

Google Gemini 앱, Lyria 3 기반 30초 음악 생성 기능 공개
AI Feb 19, 2026 1 min read