Google、Gemini Embedding 2をpublic preview公開 初のnatively multimodal embedding model
Original: Gemini Embedding 2 View original →
何が公開されたのか
Googleは2026年3月10日、Gemini Embedding 2をpublic previewとして公開した。Googleはこれを自社初のnatively multimodal embedding modelと位置づけ、textだけでなくimage、さらにtext・image・chartが混在するPDFのようなdocumentも1つのembedding spaceで扱えると説明している。
この発表の意味は、retrieval systemの構成を簡潔にできる点にある。多くのproduction環境では、text検索とimage検索を別々のembedding pipelineで運用している。GoogleはGemini Embedding 2によって、multimodal search、recommendation、RAGをより少ない部品で構築できるようになると主張している。
性能面でのポイント
Googleによれば、Gemini Embedding 2はtext benchmarkを62.3から68.32へ改善し、image benchmarkでは53.3を記録した。同時に、価格とvector dimensionsは従来のGemini Embeddingと同じままにしているという。この点はmigrationの観点で大きい。retrieval qualityは上げたいが、index schemaやstorage costを大きく変えたくないチームにとって導入障壁が低くなるからだ。
また、multimodal documentをnativeに扱える点も実務的だ。企業のknowledge baseは純粋なtextだけではなく、slide、chart、screenshot、product sheetのような混在資料でできている。そうしたartifactをembedding段階から正しく表現できれば、searchとrankingの精度向上が期待できる。
なぜ重要か
Gemini Embedding 2は派手なchatbot発表ではないが、AI productの土台を変えるreleaseだ。実際のapplicationではgenerationより先にretrieval qualityが制約になることが多い。Googleの今回の動きは、multimodal RAGとsearchが研究向け機能ではなく、標準的なproduction stackへ移っていることを示している。
出典: Google
Related Articles
GoogleはGemini APIとVertex AIでGemini Embedding 2のプレビュー提供を開始した。text、image、video、audio、documentを1つのembedding spaceに配置する、同社初のネイティブなマルチモーダル embedding システムだ。
GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
Google AI Developersは、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベースで初のfully multimodal embedding modelであり、現時点で最もcapableなembedding modelだとしている。
Comments (0)
No comments yet. Be the first to comment!