Google DeepMind、Gemini Embedding 2をpreview公開しmultimodal retrievalを前進

Google DeepMindは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architecture上に構築された初のfully multimodal embedding modelと位置付け、text、images、video、audio、documentsを共通のvector spaceに写像するために設計したと説明している。

この説明は見た目以上に重要だ。多くの本番retrievalシステムは、text search、image search、document indexing、media understandingをいまだに別々のモデルへ分けている。真にmultimodalなembedding layerが使えるようになれば、異なる種類のコンテンツを同じ表現空間で保存・比較でき、システム構成を簡素化できる。enterprise search、recommendation systems、multimodal RAG、そしてスクリーンショットやPDF、音声メモ、短い動画をtext queryと一緒に扱うワークフローに直結する変化だ。

Googleはこのモデルが100以上の言語を支え、単一modalityだけでなくmixed inputsにも対応すると説明した。発表資料では最大8,192 text tokens、1リクエストあたり最大6 images、短いvideoとaudio入力、PDF documentsの処理も強調している。さらにMatryoshka Representation Learningによって3,072、1,536、768 dimensionsの出力を選べるため、チームはretrieval品質と保存・配信コストのバランスを調整しやすい。

競争環境の面でも見逃せない。embeddingsはflagship chat modelほど注目されないが、generationの前段でどれだけ現実世界の情報を検索・整列できるかを左右する基盤そのものだ。Google DeepMindがfully multimodal embedding modelをpreview投入したことは、Geminiファミリーをsearch、knowledge systems、agent memoryを支えるインフラ層まで深く押し広げる動きといえる。

開発者にとっての実務的な含意は明快だ。Gemini Embedding 2が本番でも機能すれば、維持すべきspecialized vector pipelinesの数を減らし、multimodal retrievalをより自然に実装できる。assistants、copilots、enterprise knowledge toolsの土台となるAIスタックの主導権をGoogleがさらに強める可能性がある。

Google DeepMind、Gemini Embedding 2をpreview公開しmultimodal retrievalを前進

Related Articles

Google Cloud、毎分160億トークン時代　勝負はモデルよりエージェント基盤

Google DeepMind、低遅延voice・vision agent向けGemini 3.1 Flash Liveを公開

Google DeepMind、Nano Banana 2の情報可視化機能を強調

Comments (0)

Leave a Comment