Skip to content

#voice-agents

RSS Feed
AI X/Twitter Apr 5, 2026 1 min read

Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.

LLM X/Twitter Apr 3, 2026 2 min read

Google AI는 2026년 3월 26일 실시간 voice·vision agent를 만드는 개발자를 위해 Gemini 3.1 Flash Live를 출시한다고 밝혔다. Google은 더 자연스러운 대화 속도, noisy environment에서의 더 나은 task completion, 복잡한 instruction 처리 개선을 강조했고, Live API 문서는 low-latency multimodal streaming과 tool use, 70개 언어 지원을 설명한다.

LLM X/Twitter Mar 30, 2026 2 min read

OpenAI Developers는 2026년 3월 30일 Perplexity가 Realtime API 기반 voice 경험을 production에서 운영하며 얻은 교훈을 공개했다고 밝혔다. 게시물에 따르면 Perplexity는 월 수백만 건의 voice session을 처리하고 있으며, context chunking, audio format 표준화, noisy environment에서의 turn-taking 조정 방식을 바꿨다.

AI X/Twitter Mar 23, 2026 2 min read

LiveKit은 2026년 3월 19일 실제 사용자 interrupt와 backchannel·잡음을 구분하는 audio model을 학습했다고 밝혔다. 회사 블로그에 따르면 이 기능은 LiveKit Agents에 정식 제공되며, 500ms overlap speech 기준 86% precision과 100% recall을 기록했고 최신 Python·TypeScript agent SDK에서 기본 활성화된다.