Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개

Original: Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. View original →

Read in other languages: English日本語
LLM Mar 13, 2026 By Insights AI 1 min read 1 views Source

Google AI Developers는 2026년 3월 10일 X에서 Gemini Embedding 2가 Gemini API와 Vertex AI를 통해 preview로 제공된다고 발표했다. Google은 이 모델을 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 성능이 높은 embedding model이라고 설명했다. 이어진 스레드와 공식 블로그에 따르면 이 모델은 text, image, video, audio, document를 하나의 unified embedding space에 배치해 서로 다른 미디어를 별도 모델 없이 함께 검색, 분류, 클러스터링할 수 있게 한다.

이 설계는 실제 retrieval 시스템의 복잡도를 바로 건드린다. 기업 문서에는 PDF와 diagram이 섞여 있고, support 기록에는 screenshot이 들어가며, research corpus에는 video와 audio가 함께 존재한다. Google은 Gemini Embedding 2가 이런 입력을 native하게 처리하면서 100개가 넘는 언어에서 semantic intent를 포착한다고 밝혔다. 회사는 이 모델을 multimodal RAG, semantic search, recommendation, analytics infrastructure의 기반으로 내세우고 있다.

  • text는 최대 8192 tokens를 지원한다.
  • 요청당 최대 6장의 image, 최대 120초의 video, native audio, 최대 6페이지 PDF를 처리할 수 있다.
  • 기본 3072 차원과 더 작은 출력 차원을 지원해 품질과 저장 비용 사이의 균형을 조정할 수 있다.

Google은 또 Gemini Embedding 2에 Matryoshka Representation Learning(MRL)을 적용했다고 설명한다. 이 방식은 별도 모델을 다시 학습하지 않고도 embedding dimension을 줄일 수 있게 해 vector DB 용량, 네트워크 대역폭, retrieval latency 같은 운영 비용을 낮추는 데 유리하다. multimodal을 하나의 모델로 통합하면서도 production 최적화 여지를 남겼다는 점이 중요하다.

핵심은 Google이 또 하나의 embedding model을 추가했다는 데 있지 않다. 더 큰 변화는 multimodal retrieval이 더 이상 특수한 옵션이 아니라 기본 전제가 되어가고 있다는 점이다. text, image, audio, video, document를 한 API 호출에서 같은 semantic space에 넣을 수 있다면, 개발팀은 전처리와 glue code에 쓰던 시간을 ranking, policy, application behavior에 더 집중할 수 있다. Gemini Embedding 2 preview는 model release이면서 동시에 infrastructure release다.

Share: Long

Related Articles

LLM sources.twitter 5d ago 1 min read

Google AI Developers는 Gemini Embedding 2를 Gemini API와 Vertex AI에서 preview로 제공한다고 밝혔다. 회사는 이를 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 capable한 embedding model로 소개했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.