Google、初のネイティブなマルチモーダル embedding モデル Gemini Embedding 2をプレビュー公開

Original: Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. View original →

Read in other languages: 한국어English
LLM Mar 13, 2026 By Insights AI 1 min read 1 views Source

Google AI Developersは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architectureベースの初のfully multimodal embedding modelであり、同社で最も高性能なembedding modelだと説明している。続くスレッドと公式ブログによれば、このモデルはtext、image、video、audio、documentを単一のunified embedding spaceに写像し、別々のembedding stackを組まなくても異なるmediaをまとめて検索、分類、クラスタリングできる。

この設計は現代のretrieval systemが抱える実務上の問題に直結している。企業文書にはPDFやdiagramが混ざり、support記録にはscreenshotがあり、研究データにはvideoやaudioが含まれる。GoogleはGemini Embedding 2がこうした入力をnativeに扱いながら、100以上の言語でsemantic intentを捉えられると述べている。位置付けとしては、multimodal RAG、semantic search、recommendation、analytics infrastructureの基盤モデルだ。

  • text入力は最大8192 tokensをサポートする。
  • 1回のrequestで最大6枚のimage、最大120秒のvideo、native audio、最大6ページのPDFを処理できる。
  • 出力次元は柔軟で、既定の3072に加えて小さい設定も選べるため、品質と保存コストのバランスを取りやすい。

Googleはさらに、Gemini Embedding 2にMatryoshka Representation Learning(MRL)を採用したと説明している。これにより、用途ごとに別モデルを学習しなくてもembedding dimensionを縮小でき、vector databaseの容量、network bandwidth、retrieval latencyといった運用コストを抑えやすくなる。マルチモーダルを1つのモデルにまとめつつ、本番最適化の余地を残した点が重要だ。

意味が大きいのは、Googleがembedding modelをもう1本増やしたことではない。より重要なのは、multimodal retrievalが特殊機能ではなく標準前提に近づいていることだ。text、image、audio、video、documentを1回のAPI呼び出しで同じsemantic spaceに置けるなら、開発チームは前処理やglue codeではなく、ranking、policy、application behaviorにより多くの時間を使える。Gemini Embedding 2のpreviewは、model releaseであると同時にinfrastructure releaseでもある。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.