Gemini 3.1 Flash TTS、audio tagsと70+ languagesで音声制御を広げた
Original: Gemini 3.1 Flash TTS: the next generation of expressive AI speech View original →
Gemini 3.1 Flash TTSで重要なのは、TTSの音質改善だけではない。開発者が声のpace、tone、deliveryをテキスト内のaudio tagsで直接指定できる点だ。Googleは4月15日の投稿で、自然言語の指示を入力に埋め込み、AI speechの表現をより細かく制御できるようにしたと説明している。音声AIの競争軸が、聞きやすさから制作管理へ移っていることを示す動きだ。
提供面も広い。3.1 Flash TTSはdevelopers向けにGemini APIとGoogle AI Studioでpreview、enterprise向けにVertex AIでpreview、Workspace users向けにGoogle Vidsで使える。実験用のplayground、企業の本番検証、社内外向けvideo制作が同じモデルに触れるため、voice agentやlocalizationのチームにとって試しやすい配置になっている。
Googleが示した具体的な数字は、70+ languages対応とArtificial Analysis TTS leaderboardでのElo 1,211だ。さらにnative multi-speaker dialogue、Audio Profiles、Director's Notes、inline tagsが組み合わさる。たとえば場面設定を与え、speakerごとに話し方を指定し、文の途中で感情やspeedを変える、といった使い方が狙われている。
もう一つの焦点はwatermarkだ。GoogleはGemini 3.1 Flash TTSが生成するすべてのaudioにSynthID watermarkを入れ、AI-generated contentの識別を助けるとしている。次に見るべきなのは、長い台本、複数speaker、低リソース言語、編集後の音声でも制御性と識別性が保てるかだ。出典: Google Keyword.
開発者が実際に見るべき境界はconsistencyだ。短いdemo voiceは印象を作りやすいが、製品の声はretry、speaker変更、localizationの過程でも同じpersonaを保つ必要がある。Audio Profilesとinline instructionsをpromptの近くに置く設計は、その制御を別のstudio layerへ隠さず、確認可能な形にする試みと読める。
Related Articles
r/LocalLLaMAの新しいスレッドでは、大きなチャットボットではなく、YOLO、LightGBM、Parakeet、OCRなど日々使う小さなAIが話題になった。コストと信頼性では専用モデルが強い場面が多い。
Hacker News で注目された GitHub repo は、Gemini 画像の SynthID watermark を signal processing だけで検出し弱められると主張した。だが議論の中心は headline claim そのものより、Google 公式 detector と照合していない点と、watermark ベース provenance の脆さだった。
Google DeepMindとGeminiチームは2026年2月18日、Lyria 3をGeminiアプリにベータ導入すると発表した。テキストや画像から30秒トラックを生成でき、出力音声にはSynthIDが埋め込まれる。