腐食中

Google、初のネイティブなマルチモーダル embedding モデル Gemini Embedding 2をプレビュー公開

Original: Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. View original →

Read in other languages: 한국어English
LLM Mar 13, 2026 By Insights AI 1 min read 7 views Source

Google AI Developersは2026年3月10日、XでGemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。GoogleはこれをGemini architectureベースの初のfully multimodal embedding modelであり、同社で最も高性能なembedding modelだと説明している。続くスレッドと公式ブログによれば、このモデルはtext、image、video、audio、documentを単一のunified embedding spaceに写像し、別々のembedding stackを組まなくても異なるmediaをまとめて検索、分類、クラスタリングできる。

この設計は現代のretrieval systemが抱える実務上の問題に直結している。企業文書にはPDFやdiagramが混ざり、support記録にはscreenshotがあり、研究データにはvideoやaudioが含まれる。GoogleはGemini Embedding 2がこうした入力をnativeに扱いながら、100以上の言語でsemantic intentを捉えられると述べている。位置付けとしては、multimodal RAG、semantic search、recommendation、analytics infrastructureの基盤モデルだ。

  • text入力は最大8192 tokensをサポートする。
  • 1回のrequestで最大6枚のimage、最大120秒のvideo、native audio、最大6ページのPDFを処理できる。
  • 出力次元は柔軟で、既定の3072に加えて小さい設定も選べるため、品質と保存コストのバランスを取りやすい。

Googleはさらに、Gemini Embedding 2にMatryoshka Representation Learning(MRL)を採用したと説明している。これにより、用途ごとに別モデルを学習しなくてもembedding dimensionを縮小でき、vector databaseの容量、network bandwidth、retrieval latencyといった運用コストを抑えやすくなる。マルチモーダルを1つのモデルにまとめつつ、本番最適化の余地を残した点が重要だ。

意味が大きいのは、Googleがembedding modelをもう1本増やしたことではない。より重要なのは、multimodal retrievalが特殊機能ではなく標準前提に近づいていることだ。text、image、audio、video、documentを1回のAPI呼び出しで同じsemantic spaceに置けるなら、開発チームは前処理やglue codeではなく、ranking、policy、application behaviorにより多くの時間を使える。Gemini Embedding 2のpreviewは、model releaseであると同時にinfrastructure releaseでもある。

Share: Long

Related Articles

LLM X/Twitter Mar 22, 2026 1 min read

Google AI Studioは2026-03-12のX投稿でGemini Embedding 2を紹介し、Googleの2026-03-10ブログ記事はこのmodelがtext、images、video、audio、documentsを単一のembedding spaceへ写像すると説明している。GoogleはGemini APIとVertex AIでpublic preview提供中で、multimodal retrievalとclassificationを主な用途に挙げている。

LLM X/Twitter Mar 30, 2026 1 min read

Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveをGemini LiveとGoogle Search Liveへ順次展開し、開発者はGoogle AI Studioから利用を始められると発表した。Googleはこれを自社最高品質のaudio modelと位置づけ、低latency、向上したtonal understanding、ComplexFuncBench Audio 90.8%を打ち出している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment