Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개
Original: Start building with Gemini Embedding 2, our most capable and first fully multimodal embedding model built on the Gemini architecture. Now available in preview via the Gemini API and in Vertex AI. View original →
Google AI Developers는 2026년 3월 10일 X에서 Gemini Embedding 2가 Gemini API와 Vertex AI를 통해 preview로 제공된다고 발표했다. Google은 이 모델을 Gemini architecture 기반의 첫 fully multimodal embedding model이자 가장 성능이 높은 embedding model이라고 설명했다. 이어진 스레드와 공식 블로그에 따르면 이 모델은 text, image, video, audio, document를 하나의 unified embedding space에 배치해 서로 다른 미디어를 별도 모델 없이 함께 검색, 분류, 클러스터링할 수 있게 한다.
이 설계는 실제 retrieval 시스템의 복잡도를 바로 건드린다. 기업 문서에는 PDF와 diagram이 섞여 있고, support 기록에는 screenshot이 들어가며, research corpus에는 video와 audio가 함께 존재한다. Google은 Gemini Embedding 2가 이런 입력을 native하게 처리하면서 100개가 넘는 언어에서 semantic intent를 포착한다고 밝혔다. 회사는 이 모델을 multimodal RAG, semantic search, recommendation, analytics infrastructure의 기반으로 내세우고 있다.
- text는 최대 8192 tokens를 지원한다.
- 요청당 최대 6장의 image, 최대 120초의 video, native audio, 최대 6페이지 PDF를 처리할 수 있다.
- 기본 3072 차원과 더 작은 출력 차원을 지원해 품질과 저장 비용 사이의 균형을 조정할 수 있다.
Google은 또 Gemini Embedding 2에 Matryoshka Representation Learning(MRL)을 적용했다고 설명한다. 이 방식은 별도 모델을 다시 학습하지 않고도 embedding dimension을 줄일 수 있게 해 vector DB 용량, 네트워크 대역폭, retrieval latency 같은 운영 비용을 낮추는 데 유리하다. multimodal을 하나의 모델로 통합하면서도 production 최적화 여지를 남겼다는 점이 중요하다.
핵심은 Google이 또 하나의 embedding model을 추가했다는 데 있지 않다. 더 큰 변화는 multimodal retrieval이 더 이상 특수한 옵션이 아니라 기본 전제가 되어가고 있다는 점이다. text, image, audio, video, document를 한 API 호출에서 같은 semantic space에 넣을 수 있다면, 개발팀은 전처리와 glue code에 쓰던 시간을 ranking, policy, application behavior에 더 집중할 수 있다. Gemini Embedding 2 preview는 model release이면서 동시에 infrastructure release다.
Related Articles
Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2를 소개했고, Google의 2026-03-10 블로그 글은 이 model이 text, images, video, audio, documents를 하나의 embedding space로 매핑한다고 설명한다. Google은 이 model이 Gemini API와 Vertex AI에서 public preview로 제공되며 multimodal retrieval과 classification을 주요 활용처로 내세운다고 밝혔다.
4월 24일 Gemini Drop의 핵심은 새 모델 한 개보다 사용 습관이다. 네이티브 Mac 앱, Notebooks 통합, 글로벌 Personal Intelligence, 무료 3분 Lyria 3 Pro, 인터랙티브 시각화가 Gemini를 상시 도우미 쪽으로 밀어 올린다.
Google DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Gemini Live와 Google Search Live에 순차 적용되고, 개발자는 Google AI Studio에서 바로 사용할 수 있다고 밝혔다. Google은 이 모델을 자사 최고 품질의 audio model로 규정하며, 더 낮은 latency와 향상된 tonal understanding, 그리고 ComplexFuncBench Audio 90.8% 성능을 강조했다.
Comments (0)
No comments yet. Be the first to comment!