Google, Gemini Embedding 2 공개… 텍스트·이미지·오디오·비디오·문서를 하나의 벡터 공간으로

Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2가 text, images, audio, video, docs를 하나의 벡터 공간으로 가져온다고 알렸다. 이 안내는 Google의 2026-03-10 공식 블로그 글과 맞물린다. Google에 따르면 Gemini Embedding 2는 Gemini architecture 위에 세운 첫 fully multimodal embedding model이며, Gemini API와 Vertex AI에서 public preview로 제공된다.

embedding model은 검색, 추천, clustering, classification, 그리고 RAG의 기초가 되는 표현 계층이다. 기존에는 text용, image용, audio용 pipeline을 따로 두는 경우가 많았다. 이번 발표의 핵심은 그런 분절을 줄이고, text, images, videos, audio, documents를 하나의 unified embedding space에서 다루게 하겠다는 데 있다. Google은 이 model이 100+ languages에서 semantic intent를 포착해 multimodal retrieval, semantic search, sentiment analysis, data clustering 같은 작업을 단순화한다고 설명한다.

공식 글은 구체적 사용 경로도 제시한다. 개발자는 Gemini API나 Vertex AI를 통해 model을 사용할 수 있고, lightweight multimodal semantic search demo도 시험해 볼 수 있다. Google은 또 Gemini Embedding 2가 text, image, video 작업에서 leading models를 앞서는 성능을 냈다고 주장하며, strong speech capabilities를 함께 강조했다. 이 benchmark와 성능 수치는 Google이 제시한 자체 자료라는 점을 분명히 읽을 필요가 있다.

가장 구체적인 실사용 예시는 Paramount Skydance 사례다. Google은 이 회사가 text query로 맞는 video asset을 찾고, 심지어 transcription되지 않은 micro-expressions까지 검색 대상으로 다룰 수 있었다고 설명한다. 회사 측이 제시한 수치로는 text-to-video Recall@1이 85.3%였다. 이 결과가 다른 media workflow로도 이어진다면, multimodal embedding은 연구용 개념을 넘어 실제 운영 검색 인프라로 빠르게 자리 잡을 수 있다.

개발자 관점에서의 의미는 분명하다. 하나의 embedding space가 성립하면 multimodal search와 RAG stack 설계가 훨씬 단순해진다. domain data 검증은 여전히 필요하지만, Google이 mixed media 검색을 default infrastructure 수준으로 끌어올리려 한다는 신호로서는 충분히 무게가 있다.

Primary sources는 X 게시물과 Google blog다.

Google, Gemini Embedding 2 공개… 텍스트·이미지·오디오·비디오·문서를 하나의 벡터 공간으로

Related Articles

Google, Gemini Embedding 2 public preview 시작... 첫 natively multimodal embedding 모델

Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개

Google DeepMind, Gemini Embedding 2 preview 공개로 multimodal retrieval 확장

Comments (0)

Leave a Comment

Related Articles

Google, Gemini Embedding 2 public preview 시작... 첫 natively multimodal embedding 모델

Google, 첫 네이티브 멀티모달 embedding 모델 Gemini Embedding 2 preview 공개
LLM Mar 13, 2026 1 min read

Google DeepMind, Gemini Embedding 2 preview 공개로 multimodal retrieval 확장