Google、初のネイティブなマルチモーダル embedding モデル Gemini Embedding 2をプレビュー公開
Original: Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. View original →
Google AI Developersは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architectureベースの初のfully multimodal embedding modelであり、同社で最も高性能なembedding modelだと説明している。続くスレッドと公式ブログによれば、このモデルはtext、image、video、audio、documentを単一のunified embedding spaceに写像し、別々のembedding stackを組まなくても異なるmediaをまとめて検索、分類、クラスタリングできる。
この設計は現代のretrieval systemが抱える実務上の問題に直結している。企業文書にはPDFやdiagramが混ざり、support記録にはscreenshotがあり、研究データにはvideoやaudioが含まれる。GoogleはGemini Embedding 2がこうした入力をnativeに扱いながら、100以上の言語でsemantic intentを捉えられると述べている。位置付けとしては、multimodal RAG、semantic search、recommendation、analytics infrastructureの基盤モデルだ。
- text入力は最大8192 tokensをサポートする。
- 1回のrequestで最大6枚のimage、最大120秒のvideo、native audio、最大6ページのPDFを処理できる。
- 出力次元は柔軟で、既定の3072に加えて小さい設定も選べるため、品質と保存コストのバランスを取りやすい。
Googleはさらに、Gemini Embedding 2にMatryoshka Representation Learning(MRL)を採用したと説明している。これにより、用途ごとに別モデルを学習しなくてもembedding dimensionを縮小でき、vector databaseの容量、network bandwidth、retrieval latencyといった運用コストを抑えやすくなる。マルチモーダルを1つのモデルにまとめつつ、本番最適化の余地を残した点が重要だ。
意味が大きいのは、Googleがembedding modelをもう1本増やしたことではない。より重要なのは、multimodal retrievalが特殊機能ではなく標準前提に近づいていることだ。text、image、audio、video、documentを1回のAPI呼び出しで同じsemantic spaceに置けるなら、開発チームは前処理やglue codeではなく、ranking、policy、application behaviorにより多くの時間を使える。Gemini Embedding 2のpreviewは、model releaseであると同時にinfrastructure releaseでもある。
Related Articles
GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
Google AI Developersは、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベースで初のfully multimodal embedding modelであり、現時点で最もcapableなembedding modelだとしている。
Googleは2026年3月10日、Gemini Embedding 2をpublic previewで公開した。会社はこのmodelがtext、image、PDFのようなmixed multimodal documentを1つのembedding spaceで扱い、benchmark scoreを68.32と53.3まで高めつつ価格とvector dimensionsは維持すると説明している。
Comments (0)
No comments yet. Be the first to comment!