Skip to content
부식 중

Google DeepMind, 저지연 voice·vision agent용 Gemini 3.1 Flash Live 공개

Original: Pinned: Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved function calling – making it more useful and informed. Here’s what’s new 🧵 View original →

Read in other languages: English日本語
LLM Mar 26, 2026 By Insights AI 1 min read 16 views Source

Google DeepMind가 X에서 밝힌 내용

2026년 3월 26일, Google DeepMind는 Gemini 3.1 Flash Live를 실시간 conversational agent용 모델로 소개했다. X 게시물은 더 자연스러운 대화와 향상된 function calling을 전면에 내세우며, 듣고 판단하고 바로 행동해야 하는 assistant를 위한 audio-first 업그레이드라는 점을 강조했다.

이 포인트가 중요한 이유는 실시간 agent 시스템이 사용자가 가장 민감하게 느끼는 지점에서 자주 실패하기 때문이다. 응답 지연, 끊기는 tool 호출, 어색한 턴 전환이 대표적이다. Google은 Flash Live를 단순한 새 endpoint가 아니라 voice·vision agent의 상호작용 품질 자체를 끌어올리는 모델로 제시하고 있다.

Google 블로그가 추가한 정보

Google에 따르면 Gemini 3.1 Flash Live는 Google AI StudioGemini Live API를 통해 preview로 제공된다. 블로그는 이 모델을 낮은 지연으로 동작하는 voice·vision agent용으로 설명하며, 사용자가 체감할 만큼 자연스러운 속도로 대화에 응답하는 것이 핵심이라고 말한다.

게시물은 세 가지 실무 개선점을 짚는다. 첫째, noisy한 실제 환경에서도 배경음을 더 잘 걸러내고 live session 중 외부 tool을 더 안정적으로 호출해 task completion을 높였다고 한다. 둘째, 긴 대화에서도 instruction following과 guardrail 준수 성능을 강화했다. 셋째, 실시간 multimodal 대화에서 90개가 넘는 언어를 지원해 글로벌 서비스로 확장하기 쉬워졌다.

Google은 모델 자체뿐 아니라 주변 런타임 계층도 함께 강조한다. Gemini Live API 문서는 tool use, function calling, 장시간 대화를 위한 session management, ephemeral token 같은 요소를 다룬다. 즉 이번 발표는 성능 수치 하나가 아니라, 실제 음성 agent를 서비스에 올릴 때 필요한 인터페이스를 함께 묶은 플랫폼 업데이트에 가깝다.

왜 중요한가

더 큰 흐름은 agent 경쟁의 기준이 정적인 prompt 품질에서 실제 상호작용 품질로 이동하고 있다는 점이다. noisy 환경에서도 빠르고, tool 실행이 안정적이며, 사람 말투에 가까운 응답을 주는 모델이 훨씬 실용적이다.

Gemini 3.1 Flash Live가 설명대로 동작한다면 고객지원, 현장업무, 튜터링처럼 끊김 없는 대화가 중요한 워크플로우에서 개발자에게 더 나은 기반을 제공할 수 있다. 그래서 이번 출시는 단순한 모델 명칭 업데이트보다 의미가 크다.

출처: Google DeepMind X 게시물 · Google 블로그 글

Share: Long

Related Articles

LLM X/Twitter Apr 3, 2026 2 min read

Google AI는 2026년 3월 26일 실시간 voice·vision agent를 만드는 개발자를 위해 Gemini 3.1 Flash Live를 출시한다고 밝혔다. Google은 더 자연스러운 대화 속도, noisy environment에서의 더 나은 task completion, 복잡한 instruction 처리 개선을 강조했고, Live API 문서는 low-latency multimodal streaming과 tool use, 70개 언어 지원을 설명한다.