Gemini 3.1 Flash TTS、audio tagsと70+ languagesで音声制御を広げた
Original: Gemini 3.1 Flash TTS: the next generation of expressive AI speech View original →
Gemini 3.1 Flash TTSで重要なのは、TTSの音質改善だけではない。開発者が声のpace、tone、deliveryをテキスト内のaudio tagsで直接指定できる点だ。Googleは4月15日の投稿で、自然言語の指示を入力に埋め込み、AI speechの表現をより細かく制御できるようにしたと説明している。音声AIの競争軸が、聞きやすさから制作管理へ移っていることを示す動きだ。
提供面も広い。3.1 Flash TTSはdevelopers向けにGemini APIとGoogle AI Studioでpreview、enterprise向けにVertex AIでpreview、Workspace users向けにGoogle Vidsで使える。実験用のplayground、企業の本番検証、社内外向けvideo制作が同じモデルに触れるため、voice agentやlocalizationのチームにとって試しやすい配置になっている。
Googleが示した具体的な数字は、70+ languages対応とArtificial Analysis TTS leaderboardでのElo 1,211だ。さらにnative multi-speaker dialogue、Audio Profiles、Director's Notes、inline tagsが組み合わさる。たとえば場面設定を与え、speakerごとに話し方を指定し、文の途中で感情やspeedを変える、といった使い方が狙われている。
もう一つの焦点はwatermarkだ。GoogleはGemini 3.1 Flash TTSが生成するすべてのaudioにSynthID watermarkを入れ、AI-generated contentの識別を助けるとしている。次に見るべきなのは、長い台本、複数speaker、低リソース言語、編集後の音声でも制御性と識別性が保てるかだ。出典: Google Keyword.
開発者が実際に見るべき境界はconsistencyだ。短いdemo voiceは印象を作りやすいが、製品の声はretry、speaker変更、localizationの過程でも同じpersonaを保つ必要がある。Audio Profilesとinline instructionsをpromptの近くに置く設計は、その制御を別のstudio layerへ隠さず、確認可能な形にする試みと読める。
Related Articles
Hacker News で注目された GitHub repo は、Gemini 画像の SynthID watermark を signal processing だけで検出し弱められると主張した。だが議論の中心は headline claim そのものより、Google 公式 detector と照合していない点と、watermark ベース provenance の脆さだった。
Google は 2026年4月8日、日本で Gemini for Home の早期アクセス提供を順次開始した。Google Home を固定 command 中心の操作から、会話型 control、AI camera 要約、自然言語 video search へ広げる update だ。
GoogleはGeminiをブラウザのタブではなくMacの常駐アプリに近づけた。Option + Spaceで呼び出し、画面やローカルファイルまで扱えるため、macOS 15以降のMacでは世界展開かつ無料で使える。
Comments (0)
No comments yet. Be the first to comment!