Google DeepMind、Gemini Embedding 2をpreview公開しmultimodal retrievalを前進
Original: Google DeepMind launches Gemini Embedding 2 in preview View original →
Google DeepMindは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architecture上に構築された初のfully multimodal embedding modelと位置付け、text、images、video、audio、documentsを共通のvector spaceに写像するために設計したと説明している。
この説明は見た目以上に重要だ。多くの本番retrievalシステムは、text search、image search、document indexing、media understandingをいまだに別々のモデルへ分けている。真にmultimodalなembedding layerが使えるようになれば、異なる種類のコンテンツを同じ表現空間で保存・比較でき、システム構成を簡素化できる。enterprise search、recommendation systems、multimodal RAG、そしてスクリーンショットやPDF、音声メモ、短い動画をtext queryと一緒に扱うワークフローに直結する変化だ。
Googleはこのモデルが100以上の言語を支え、単一modalityだけでなくmixed inputsにも対応すると説明した。発表資料では最大8,192 text tokens、1リクエストあたり最大6 images、短いvideoとaudio入力、PDF documentsの処理も強調している。さらにMatryoshka Representation Learningによって3,072、1,536、768 dimensionsの出力を選べるため、チームはretrieval品質と保存・配信コストのバランスを調整しやすい。
競争環境の面でも見逃せない。embeddingsはflagship chat modelほど注目されないが、generationの前段でどれだけ現実世界の情報を検索・整列できるかを左右する基盤そのものだ。Google DeepMindがfully multimodal embedding modelをpreview投入したことは、Geminiファミリーをsearch、knowledge systems、agent memoryを支えるインフラ層まで深く押し広げる動きといえる。
開発者にとっての実務的な含意は明快だ。Gemini Embedding 2が本番でも機能すれば、維持すべきspecialized vector pipelinesの数を減らし、multimodal retrievalをより自然に実装できる。assistants、copilots、enterprise knowledge toolsの土台となるAIスタックの主導権をGoogleがさらに強める可能性がある。
Related Articles
GoogleはGemini APIとVertex AIでGemini Embedding 2のプレビュー提供を開始した。text、image、video、audio、documentを1つのembedding spaceに配置する、同社初のネイティブなマルチモーダル embedding システムだ。
GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
Google AI Developersは、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベースで初のfully multimodal embedding modelであり、現時点で最もcapableなembedding modelだとしている。
Comments (0)
No comments yet. Be the first to comment!