xAI가 노리는 곳은 데모 음성 비서가 아니라 실제 업무용 음성 에이전트다. Grok Voice Think Fast 1.0은 τ-voice Bench 1위를 내세웠고, 25개 이상 언어 지원과 함께 Starlink 운영에서 20% 판매 전환, 70% 지원 해결률을 기록했다고 적었다.
#voice-agents
RSS FeedMistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.
Google AI는 2026년 3월 26일 실시간 voice·vision agent를 만드는 개발자를 위해 Gemini 3.1 Flash Live를 출시한다고 밝혔다. Google은 더 자연스러운 대화 속도, noisy environment에서의 더 나은 task completion, 복잡한 instruction 처리 개선을 강조했고, Live API 문서는 low-latency multimodal streaming과 tool use, 70개 언어 지원을 설명한다.
OpenAI Developers는 2026년 3월 30일 Perplexity가 Realtime API 기반 voice 경험을 production에서 운영하며 얻은 교훈을 공개했다고 밝혔다. 게시물에 따르면 Perplexity는 월 수백만 건의 voice session을 처리하고 있으며, context chunking, audio format 표준화, noisy environment에서의 turn-taking 조정 방식을 바꿨다.
Google DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Google AI Studio의 Live API를 통해 preview로 제공된다고 밝혔다. Google 블로그에 따르면 이 모델은 실시간 voice·vision agent를 겨냥하며, noisy 환경에서의 tool triggering을 개선하고 90개가 넘는 언어의 multimodal 대화를 지원한다.
LiveKit은 2026년 3월 19일 실제 사용자 interrupt와 backchannel·잡음을 구분하는 audio model을 학습했다고 밝혔다. 회사 블로그에 따르면 이 기능은 LiveKit Agents에 정식 제공되며, 500ms overlap speech 기준 86% precision과 100% recall을 기록했고 최신 Python·TypeScript agent SDK에서 기본 활성화된다.
LiveKit는 X에서 xAI의 Grok text-to-speech가 LiveKit Inference에서 low-latency streaming, telephony readiness, 20개 이상 언어 지원과 함께 제공된다고 밝혔다. LiveKit 문서에 따르면 개발자는 별도 xAI API key 없이 `xai/tts-1`을 쓰거나 `XAI_API_KEY` 기반 plugin 경로를 선택할 수 있다.
Together AI는 March 12, 2026에 real-time voice agent용 one-cloud stack을 공개한다고 밝혔다. 공개 자료에는 under-500ms latency, 25+ region 확장, 그리고 voice-agent deployment에서 time-to-first-64-tokens를 77ms까지 낮춘 kernel 최적화 사례가 포함돼 있다.
Hacker News에 올라온 Nvidia PersonaPlex 7B의 Swift/MLX 포팅기는 로컬 speech-to-speech 에이전트에서 모델 성능만큼 스트리밍·버퍼링·인터럽트 처리도 중요하다는 점을 보여준다.
LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.