Google, Gemini Embedding 2 공개… 텍스트·이미지·오디오·비디오·문서를 하나의 벡터 공간으로
Original: Gemini Embedding 2: Our first natively multimodal embedding model View original →
Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2가 text, images, audio, video, docs를 하나의 벡터 공간으로 가져온다고 알렸다. 이 안내는 Google의 2026-03-10 공식 블로그 글과 맞물린다. Google에 따르면 Gemini Embedding 2는 Gemini architecture 위에 세운 첫 fully multimodal embedding model이며, Gemini API와 Vertex AI에서 public preview로 제공된다.
embedding model은 검색, 추천, clustering, classification, 그리고 RAG의 기초가 되는 표현 계층이다. 기존에는 text용, image용, audio용 pipeline을 따로 두는 경우가 많았다. 이번 발표의 핵심은 그런 분절을 줄이고, text, images, videos, audio, documents를 하나의 unified embedding space에서 다루게 하겠다는 데 있다. Google은 이 model이 100+ languages에서 semantic intent를 포착해 multimodal retrieval, semantic search, sentiment analysis, data clustering 같은 작업을 단순화한다고 설명한다.
공식 글은 구체적 사용 경로도 제시한다. 개발자는 Gemini API나 Vertex AI를 통해 model을 사용할 수 있고, lightweight multimodal semantic search demo도 시험해 볼 수 있다. Google은 또 Gemini Embedding 2가 text, image, video 작업에서 leading models를 앞서는 성능을 냈다고 주장하며, strong speech capabilities를 함께 강조했다. 이 benchmark와 성능 수치는 Google이 제시한 자체 자료라는 점을 분명히 읽을 필요가 있다.
가장 구체적인 실사용 예시는 Paramount Skydance 사례다. Google은 이 회사가 text query로 맞는 video asset을 찾고, 심지어 transcription되지 않은 micro-expressions까지 검색 대상으로 다룰 수 있었다고 설명한다. 회사 측이 제시한 수치로는 text-to-video Recall@1이 85.3%였다. 이 결과가 다른 media workflow로도 이어진다면, multimodal embedding은 연구용 개념을 넘어 실제 운영 검색 인프라로 빠르게 자리 잡을 수 있다.
개발자 관점에서의 의미는 분명하다. 하나의 embedding space가 성립하면 multimodal search와 RAG stack 설계가 훨씬 단순해진다. domain data 검증은 여전히 필요하지만, Google이 mixed media 검색을 default infrastructure 수준으로 끌어올리려 한다는 신호로서는 충분히 무게가 있다.
Primary sources는 X 게시물과 Google blog다.
Related Articles
Google은 2026년 3월 10일 Gemini Embedding 2를 public preview로 공개했다. 회사는 이 모델이 text, image, 그리고 PDF 같은 mixed multimodal 문서를 하나의 embedding space에서 처리하며, benchmark score를 68.32와 53.3까지 끌어올리면서도 가격과 차원 수는 유지한다고 밝혔다.
Google이 Gemini API와 Vertex AI를 통해 Gemini Embedding 2를 preview로 공개했다. 이 모델은 text, image, video, audio, document를 하나의 embedding space에 넣는 Google의 첫 네이티브 멀티모달 embedding 시스템이다.
Google DeepMind는 X에서 Gemini Embedding 2를 Gemini API와 Vertex AI를 통해 preview로 제공한다고 밝혔다. 이 모델은 Gemini architecture 기반의 첫 fully multimodal embedding model로, text·image·video·audio·documents 검색 계층을 하나로 묶는 것을 목표로 한다.
Comments (0)
No comments yet. Be the first to comment!