Gemini 3.1 Flash TTS, audio tags와 70+ languages로 음성 제어 넓혔다

Original: Gemini 3.1 Flash TTS: the next generation of expressive AI speech View original →

Read in other languages: English日本語
AI Apr 16, 2026 By Insights AI 1 min read 1 views Source

Gemini 3.1 Flash TTS의 핵심은 단순히 더 자연스럽게 읽는 TTS가 아니라, 개발자가 음성의 톤과 속도, 화자 전환을 텍스트 안에서 직접 지시할 수 있게 만든 점이다. Google은 4월 15일 게시물에서 새 모델이 audio tags를 도입해 vocal style, pace, delivery를 자연어 명령으로 조정할 수 있다고 설명했다. 음성 합성 경쟁이 품질 점수에서 제작 워크플로로 넘어가는 순간에 가까운 변화다.

배포 범위도 데모에 머물지 않는다. 3.1 Flash TTS는 developers에게 Gemini API와 Google AI Studio preview로 제공되고, enterprise 고객에게는 Vertex AI preview로 열린다. Workspace 사용자는 Google Vids 안에서 이 모델을 접한다. 한 모델이 실험, 엔터프라이즈 배포, 문서 기반 영상 제작까지 동시에 들어가는 구조라서, voice agent와 localization 팀이 같은 기반을 놓고 테스트할 수 있다.

Google이 강조한 숫자는 두 가지다. 첫째, 3.1 Flash TTS는 70+ languages를 지원한다. 둘째, Artificial Analysis TTS leaderboard에서 Elo 1,211을 기록했다. 여기에 native multi-speaker dialogue와 Audio Profiles, Director's Notes 같은 설정이 붙는다. 사용자는 장면 설명을 넣고, 화자별 말투를 정하고, 문장 중간에 inline tags로 감정을 바꾸는 식의 세밀한 제어를 시도할 수 있다.

안전 장치도 기사에서 중요한 대목이다. Google은 Gemini 3.1 Flash TTS가 생성한 모든 audio에 SynthID watermark를 넣어 AI-generated content 식별을 돕는다고 밝혔다. 앞으로 볼 지점은 이 watermark가 실제 유통 환경에서 얼마나 견고하게 작동하는지, 그리고 70+ languages 지원이 저자원 언어에서도 충분한 품질과 제어성을 내는지다. 출처: Google Keyword.

개발자가 실제로 확인해야 할 경계는 consistency다. 짧은 demo voice는 인상적일 수 있지만, 제품 음성은 재시도, speaker 변경, localization 과정에서도 같은 persona를 유지해야 한다. Audio Profiles와 inline instructions를 prompt 근처에 두려는 설계는 이 제어를 별도 studio layer에 숨기지 않고 검토 가능한 형태로 만드는 시도다.

Share: Long

Related Articles

AI Hacker News Apr 10, 2026 1 min read

Hacker News에서 화제가 된 GitHub 저장소는 Gemini 이미지의 SynthID watermark를 신호 처리만으로 감지하고 약화할 수 있다고 주장했다. 다만 토론은 성과 자체보다 Google의 공식 detector와 맞대조하지 않았다는 점, 그리고 watermark 기반 provenance가 본질적으로 얼마나 취약한지에 더 집중됐다.

AI sources.twitter 6d ago 1 min read

Google은 2026년 3월 27일 X에서 Google Translate의 Live translate with headphones가 iOS에 공식 도입되고 Android와 iOS 모두에서 더 많은 국가로 확대된다고 밝혔다. Google 공식 제품 페이지는 이 기능이 70개 이상 언어를 지원하고 어떤 headphones와도 동작하며, Gemini speech-to-speech translation을 바탕으로 화자의 tone, emphasis, cadence를 최대한 보존하도록 설계됐다고 설명한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.