#voice-agents

LLM X/Twitter Apr 25, 2026 1 min read

xAI Grok Voice Think Fast 1.0 투입, τ-voice 1위와 25개 언어

xAI가 노리는 곳은 데모 음성 비서가 아니라 실제 업무용 음성 에이전트다. Grok Voice Think Fast 1.0은 τ-voice Bench 1위를 내세웠고, 25개 이상 언어 지원과 함께 Starlink 운영에서 20% 판매 전환, 70% 지원 해결률을 기록했다고 적었다.

#xai #grok-voice #voice-agents

AI X/Twitter Apr 5, 2026 1 min read

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개

Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.

#mistral #tts #voice-agents

LLM X/Twitter Apr 3, 2026 2 min read

Google AI, 실시간 voice·vision agent용 Gemini 3.1 Flash Live 출시

Google AI는 2026년 3월 26일 실시간 voice·vision agent를 만드는 개발자를 위해 Gemini 3.1 Flash Live를 출시한다고 밝혔다. Google은 더 자연스러운 대화 속도, noisy environment에서의 더 나은 task completion, 복잡한 instruction 처리 개선을 강조했고, Live API 문서는 low-latency multimodal streaming과 tool use, 70개 언어 지원을 설명한다.

#google-ai #gemini #live-api

LLM X/Twitter Mar 30, 2026 2 min read

OpenAI와 Perplexity, Realtime API 기반 voice agent 운영 교훈 공개

OpenAI Developers는 2026년 3월 30일 Perplexity가 Realtime API 기반 voice 경험을 production에서 운영하며 얻은 교훈을 공개했다고 밝혔다. 게시물에 따르면 Perplexity는 월 수백만 건의 voice session을 처리하고 있으며, context chunking, audio format 표준화, noisy environment에서의 turn-taking 조정 방식을 바꿨다.

#openai #realtime-api #voice-agents

LLM X/Twitter Mar 26, 2026 1 min read

Google DeepMind, 저지연 voice·vision agent용 Gemini 3.1 Flash Live 공개

Google DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Google AI Studio의 Live API를 통해 preview로 제공된다고 밝혔다. Google 블로그에 따르면 이 모델은 실시간 voice·vision agent를 겨냥하며, noisy 환경에서의 tool triggering을 개선하고 90개가 넘는 언어의 multimodal 대화를 지원한다.

#google-deepmind #gemini #live-api

AI X/Twitter Mar 23, 2026 2 min read

LiveKit, voice agent용 Adaptive Interruption Handling 정식 제공… VAD 오탐 문제 완화

LiveKit은 2026년 3월 19일 실제 사용자 interrupt와 backchannel·잡음을 구분하는 audio model을 학습했다고 밝혔다. 회사 블로그에 따르면 이 기능은 LiveKit Agents에 정식 제공되며, 500ms overlap speech 기준 86% precision과 100% recall을 기록했고 최신 Python·TypeScript agent SDK에서 기본 활성화된다.

#livekit #voice-agents #speech

AI X/Twitter Mar 20, 2026 1 min read

LiveKit, xAI TTS를 Inference에 추가해 20개 이상 언어와 무별도 키 경로 제공

LiveKit는 X에서 xAI의 Grok text-to-speech가 LiveKit Inference에서 low-latency streaming, telephony readiness, 20개 이상 언어 지원과 함께 제공된다고 밝혔다. LiveKit 문서에 따르면 개발자는 별도 xAI API key 없이 `xai/tts-1`을 쓰거나 `XAI_API_KEY` 기반 plugin 경로를 선택할 수 있다.

#livekit #xai #tts

AI X/Twitter Mar 14, 2026 1 min read

Together AI, 실시간 Voice Agent용 one-cloud stack 공개

Together AI는 March 12, 2026에 real-time voice agent용 one-cloud stack을 공개한다고 밝혔다. 공개 자료에는 under-500ms latency, 25+ region 확장, 그리고 voice-agent deployment에서 time-to-first-64-tokens를 77ms까지 낮춘 kernel 최적화 사례가 포함돼 있다.

#voice-agents #inference #realtime

LLM Hacker News Mar 8, 2026 1 min read

Apple Silicon에서 Swift/MLX로 구동한 Nvidia PersonaPlex 7B, 실시간 음성 에이전트에 한 걸음 더 다가가다

Hacker News에 올라온 Nvidia PersonaPlex 7B의 Swift/MLX 포팅기는 로컬 speech-to-speech 에이전트에서 모델 성능만큼 스트리밍·버퍼링·인터럽트 처리도 중요하다는 점을 보여준다.

#speech-to-speech #apple-silicon #mlx

AI Reddit Feb 21, 2026 1 min read

Reddit 주목: KittenTTS v0.8, CPU·엣지 배포를 겨냥한 초경량 오픈 TTS 스택

LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.

#tts #edge-ai #open-source