Gemini 3.5 Live Translate、70言語超のリアルタイム音声翻訳へ拡大
Original: Gemini 3.5 Live Translate expands real-time voice translation past 70 languages View original →
リアルタイム音声翻訳は、単独アプリの機能から、開発者や会議ツールが呼び出すモデル基盤へ移りつつある。Google DeepMindは6月9日の投稿で、Gemini 3.5 Live Translateを「fast, cross-language communication」向けの最新音声モデルと位置づけた。
重要な数字は70以上の言語だ。Googleの関連説明では、このモデルは音声が流れている最中に翻訳し、話し手の調子、速度、ピッチを保つことを目指す。一般ユーザーはAndroidとiOSのGoogle Translate、開発者はGemini Live APIとGoogle AI Studioのpublic preview、企業はGoogle Meetのprivate previewから利用する形になる。
Google DeepMindの公式アカウントは、Geminiの研究、モデル更新、Google製品への組み込みを継続的に発信している。今回の投稿で重要なのは、デモではなく配布先の広さだ。文が終わるのを待って翻訳する方式から、会話中に追従する音声-音声モデルへ変われば、カスタマーサポート、遠隔会議、教育、旅行アプリの設計が変わる。
次に見るべき点は、Googleの紹介例ではなく実利用での遅延と品質だ。70以上の言語対応は大きいが、専門用語、背景雑音、同時発話、アクセント差で精度が落ちれば業務利用には制約が残る。開発者向けpreviewが始まったことで、今後はAPIの費用、遅延、言語ペア別の安定性が評価軸になる。
Related Articles
Google DeepMindが「Magic Pointer」を発表。1970年代から変わらなかったマウスカーソルをAIエージェントとして再発明し、画面の内容を理解して適切な操作を提案する新しいインターフェースパラダイムを示した。
Google DeepMindがGemini Flashベースの新画像生成・編集モデル「Nano Banana 2」(Gemini 3.1 Flash Image)をリリース。Proレベルの品質と超高速生成を兼ね備え、リリース直後に画像生成ベンチマーク1位を達成した。
GoogleがI/O 2026(5月19日)で「世界モデル」Gemini Omniを発表した。Sora・Runwayなど既存のAI動画生成ツールと異なり、物理環境の因果関係を理解した上で自然言語の指示に応じてシーンを編集できる。VeoをGeminiアプリで置き換え、同日から提供開始となった。