Google、Gemini Embedding 2を公開 テキスト・画像・音声・動画・文書を単一ベクトル空間へ

Original: Gemini Embedding 2: Our first natively multimodal embedding model View original →

Read in other languages: 한국어English
LLM Mar 22, 2026 By Insights AI 1 min read Source

Google AI Studioは2026-03-12のX投稿で、Gemini Embedding 2がtext、images、audio、video、docsを1つのvector spaceに載せると紹介した。これに対応するGoogleの2026-03-10ブログ記事では、Gemini Embedding 2をGemini architecture上に構築した初のfully multimodal embedding modelと位置付け、Gemini APIとVertex AIでpublic previewとして提供していると説明している。

embedding modelの重要性は、検索、推薦、clustering、classification、RAGのような基盤処理を支えている点にある。従来はtext向け、image向け、audio向けといった形でpipelineが分かれやすかった。Googleの今回の主張は、その分断を減らし、text、images、videos、audio、documentsを1つのunified embedding spaceで扱えるようにするというものだ。

公式記事によると、Gemini Embedding 2は100+ languagesでsemantic intentを捉え、multimodal retrievalやclassificationに使える。GoogleはGemini API、Vertex AI、さらに軽量なsemantic search demoも案内している。加えて、speech capabilitiesを含むmultimodal depthで高い性能を示し、text、image、videoの課題でleading modelsを上回ったと述べている。ここでのbenchmark評価はGoogle自身の公表内容であり、その前提で読む必要がある。

最も具体的な利用例として、GoogleはParamount Skydanceの事例を紹介している。記事では、text queryから対応するvideo assetを引き当て、未転写のmicro-expressionsまで検索対象にできたとし、text-to-video Recall@1が85.3%に達したと説明している。もしこうした結果が他のmedia workflowにも広がるなら、multimodal embeddingは研究トピックではなく実運用の標準基盤に近づくことになる。

開発者にとっての意味は明快だ。単一embedding spaceが成立すれば、multimodal searchやRAG stackの設計はかなり単純化できる。domain dataでの検証は依然として必要だが、Googleがmixed media検索をdefault infrastructureへ押し上げようとしているシグナルとして、今回の発表は十分に重い。

Primary sources: Google AI Studio on X and Google blog.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.