Google、Gemini Embedding 2をpublic preview公開 初のnatively multimodal embedding model
Original: Gemini Embedding 2 View original →
何が公開されたのか
Googleは2026年3月10日、Gemini Embedding 2をpublic previewとして公開した。Googleはこれを自社初のnatively multimodal embedding modelと位置づけ、textだけでなくimage、さらにtext・image・chartが混在するPDFのようなdocumentも1つのembedding spaceで扱えると説明している。
この発表の意味は、retrieval systemの構成を簡潔にできる点にある。多くのproduction環境では、text検索とimage検索を別々のembedding pipelineで運用している。GoogleはGemini Embedding 2によって、multimodal search、recommendation、RAGをより少ない部品で構築できるようになると主張している。
性能面でのポイント
Googleによれば、Gemini Embedding 2はtext benchmarkを62.3から68.32へ改善し、image benchmarkでは53.3を記録した。同時に、価格とvector dimensionsは従来のGemini Embeddingと同じままにしているという。この点はmigrationの観点で大きい。retrieval qualityは上げたいが、index schemaやstorage costを大きく変えたくないチームにとって導入障壁が低くなるからだ。
また、multimodal documentをnativeに扱える点も実務的だ。企業のknowledge baseは純粋なtextだけではなく、slide、chart、screenshot、product sheetのような混在資料でできている。そうしたartifactをembedding段階から正しく表現できれば、searchとrankingの精度向上が期待できる。
なぜ重要か
Gemini Embedding 2は派手なchatbot発表ではないが、AI productの土台を変えるreleaseだ。実際のapplicationではgenerationより先にretrieval qualityが制約になることが多い。Googleの今回の動きは、multimodal RAGとsearchが研究向け機能ではなく、標準的なproduction stackへ移っていることを示している。
出典: Google
Related Articles
GoogleはGemini APIとVertex AIでGemini Embedding 2のプレビュー提供を開始した。text、image、video、audio、documentを1つのembedding spaceに配置する、同社初のネイティブなマルチモーダル embedding システムだ。
Google AI Studioは2026-03-12のX投稿でGemini Embedding 2を紹介し、Googleの2026-03-10ブログ記事はこのmodelがtext、images、video、audio、documentsを単一のembedding spaceへ写像すると説明している。GoogleはGemini APIとVertex AIでpublic preview提供中で、multimodal retrievalとclassificationを主な用途に挙げている。
4月24日のGemini Dropは、新モデル単体よりも日常利用の囲い込みが本題だ。Mac向けネイティブアプリ、Notebooks統合、Personal Intelligenceの拡大、無料の3分Lyria 3 Pro、対話型ビジュアルでGeminiは常駐アシスタントに近づく。
Comments (0)
No comments yet. Be the first to comment!