Google DeepMind、Gemini Embedding 2をpreview公開しmultimodal retrievalを前進
Original: Google DeepMind launches Gemini Embedding 2 in preview View original →
Google DeepMindは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architecture上に構築された初のfully multimodal embedding modelと位置付け、text、images、video、audio、documentsを共通のvector spaceに写像するために設計したと説明している。
この説明は見た目以上に重要だ。多くの本番retrievalシステムは、text search、image search、document indexing、media understandingをいまだに別々のモデルへ分けている。真にmultimodalなembedding layerが使えるようになれば、異なる種類のコンテンツを同じ表現空間で保存・比較でき、システム構成を簡素化できる。enterprise search、recommendation systems、multimodal RAG、そしてスクリーンショットやPDF、音声メモ、短い動画をtext queryと一緒に扱うワークフローに直結する変化だ。
Googleはこのモデルが100以上の言語を支え、単一modalityだけでなくmixed inputsにも対応すると説明した。発表資料では最大8,192 text tokens、1リクエストあたり最大6 images、短いvideoとaudio入力、PDF documentsの処理も強調している。さらにMatryoshka Representation Learningによって3,072、1,536、768 dimensionsの出力を選べるため、チームはretrieval品質と保存・配信コストのバランスを調整しやすい。
競争環境の面でも見逃せない。embeddingsはflagship chat modelほど注目されないが、generationの前段でどれだけ現実世界の情報を検索・整列できるかを左右する基盤そのものだ。Google DeepMindがfully multimodal embedding modelをpreview投入したことは、Geminiファミリーをsearch、knowledge systems、agent memoryを支えるインフラ層まで深く押し広げる動きといえる。
開発者にとっての実務的な含意は明快だ。Gemini Embedding 2が本番でも機能すれば、維持すべきspecialized vector pipelinesの数を減らし、multimodal retrievalをより自然に実装できる。assistants、copilots、enterprise knowledge toolsの土台となるAIスタックの主導権をGoogleがさらに強める可能性がある。
Related Articles
GoogleはAI事業が実験段階を 넘어運用段階に入ったと打ち出した。Cloud顧客の75%がAI製品を使い、過去12カ月で1兆トークン超を処理した顧客が330社、モデルAPI流量は毎分160億トークンに達したとして、Gemini Enterprise Agent Platformを本格投入した。
Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。
Google DeepMindは2026年2月26日(UTC)のX投稿で、Nano Banana 2が指示文からデータ量の多いインフォグラフィックや教育図を生成できると説明した。Geminiの知識とWeb検索情報の活用も示した。
Comments (0)
No comments yet. Be the first to comment!