Google DeepMind, 저지연 voice·vision agent용 Gemini 3.1 Flash Live 공개
Original: Pinned: Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved function calling – making it more useful and informed. Here’s what’s new 🧵 View original →
Google DeepMind가 X에서 밝힌 내용
2026년 3월 26일, Google DeepMind는 Gemini 3.1 Flash Live를 실시간 conversational agent용 모델로 소개했다. X 게시물은 더 자연스러운 대화와 향상된 function calling을 전면에 내세우며, 듣고 판단하고 바로 행동해야 하는 assistant를 위한 audio-first 업그레이드라는 점을 강조했다.
이 포인트가 중요한 이유는 실시간 agent 시스템이 사용자가 가장 민감하게 느끼는 지점에서 자주 실패하기 때문이다. 응답 지연, 끊기는 tool 호출, 어색한 턴 전환이 대표적이다. Google은 Flash Live를 단순한 새 endpoint가 아니라 voice·vision agent의 상호작용 품질 자체를 끌어올리는 모델로 제시하고 있다.
Google 블로그가 추가한 정보
Google에 따르면 Gemini 3.1 Flash Live는 Google AI Studio의 Gemini Live API를 통해 preview로 제공된다. 블로그는 이 모델을 낮은 지연으로 동작하는 voice·vision agent용으로 설명하며, 사용자가 체감할 만큼 자연스러운 속도로 대화에 응답하는 것이 핵심이라고 말한다.
게시물은 세 가지 실무 개선점을 짚는다. 첫째, noisy한 실제 환경에서도 배경음을 더 잘 걸러내고 live session 중 외부 tool을 더 안정적으로 호출해 task completion을 높였다고 한다. 둘째, 긴 대화에서도 instruction following과 guardrail 준수 성능을 강화했다. 셋째, 실시간 multimodal 대화에서 90개가 넘는 언어를 지원해 글로벌 서비스로 확장하기 쉬워졌다.
Google은 모델 자체뿐 아니라 주변 런타임 계층도 함께 강조한다. Gemini Live API 문서는 tool use, function calling, 장시간 대화를 위한 session management, ephemeral token 같은 요소를 다룬다. 즉 이번 발표는 성능 수치 하나가 아니라, 실제 음성 agent를 서비스에 올릴 때 필요한 인터페이스를 함께 묶은 플랫폼 업데이트에 가깝다.
왜 중요한가
더 큰 흐름은 agent 경쟁의 기준이 정적인 prompt 품질에서 실제 상호작용 품질로 이동하고 있다는 점이다. noisy 환경에서도 빠르고, tool 실행이 안정적이며, 사람 말투에 가까운 응답을 주는 모델이 훨씬 실용적이다.
Gemini 3.1 Flash Live가 설명대로 동작한다면 고객지원, 현장업무, 튜터링처럼 끊김 없는 대화가 중요한 워크플로우에서 개발자에게 더 나은 기반을 제공할 수 있다. 그래서 이번 출시는 단순한 모델 명칭 업데이트보다 의미가 크다.
Related Articles
Google DeepMind는 X에서 Gemini Embedding 2를 Gemini API와 Vertex AI를 통해 preview로 제공한다고 밝혔다. 이 모델은 Gemini architecture 기반의 첫 fully multimodal embedding model로, text·image·video·audio·documents 검색 계층을 하나로 묶는 것을 목표로 한다.
Google DeepMind는 2026년 2월 26일 X에서 Nano Banana 2가 지시문을 데이터 중심 인포그래픽과 교육용 다이어그램으로 변환할 수 있다고 밝혔다. 게시물은 약 3만 조회를 기록했다.
Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2를 소개했고, Google의 2026-03-10 블로그 글은 이 model이 text, images, video, audio, documents를 하나의 embedding space로 매핑한다고 설명한다. Google은 이 model이 Gemini API와 Vertex AI에서 public preview로 제공되며 multimodal retrieval과 classification을 주요 활용처로 내세운다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!