Gemini API 파일 검색, 멀티모달 RAG 지원으로 확장
Original: Gemini API File Search is now multimodal View original →
업데이트 개요
Google이 Gemini API의 파일 검색(File Search) 도구를 멀티모달로 업그레이드했다. 기존에는 텍스트 문서 중심이었던 파일 검색이 이제 이미지, 오디오, 동영상 등 다양한 형식의 콘텐츠를 지원하게 됐다.
주요 기능
- 멀티모달 RAG: 텍스트는 물론 이미지, 음성, 영상 파일에 대한 검색 증강 생성(RAG)이 가능해졌다.
- 소스 검증: 검색 결과에 출처 정보를 포함해 AI 응답의 사실 근거를 확인할 수 있다.
- 효율성 향상: 전체 문서를 컨텍스트 창에 넣지 않고 관련 청크만 검색해 토큰 비용을 절감한다.
개발자에게 미치는 영향
이번 업데이트로 Gemini API를 활용하는 개발자들은 더 복잡한 멀티미디어 애플리케이션을 구축할 수 있게 됐다. 이미지 컬렉션에서 유사한 시각 요소를 검색하거나, 오디오 라이브러리에서 특정 음성 패턴을 찾는 등의 작업이 가능하다.
Related Articles
Google은 2026년 3월 26일 Search Live를 AI Mode가 이미 제공되는 모든 언어와 국가로 확대한다고 밝혔다. 200개+ 국가와 지역으로 넓어지는 이번 rollout은 Gemini 3.1 Flash Live를 기반으로 search를 더 conversational하고 voice-first하며 camera-aware한 경험으로 밀어 올린다.
중요한 점은 retrieval stack이 text-only search에서 multimodal memory로 이동하고 있다는 데 있다. Google AI Studio는 Gemini Embedding 2가 GA가 됐고 text, image, video, audio, documents 5개 입력을 하나의 model path로 다룬다고 적었다.
구글 딥마인드가 Gemini 기반 코딩 에이전트 AlphaEvolve의 1년간 성과를 공개했다. 양자 컴퓨팅·바이오테크·물류·구글 AI 인프라 등 다양한 영역에서 알고리즘 발견과 최적화를 가속했다.
Comments (0)
No comments yet. Be the first to comment!