xAI가 기업 고객 지원에 특화된 음성 에이전트 Grok Voice Think Fast 1.0을 출시했다. 실시간 대화 처리와 빠른 응답 속도를 강조한 제품으로, 콜센터 자동화 시장을 겨냥한다.
#voice-ai
RSS FeedOpenAI가 Realtime API에 GPT-5급 추론 능력을 갖춘 음성 모델 3종을 추가했다. gpt-4o-realtime-preview, gpt-4o-mini-realtime-preview, 그리고 새로운 추론 특화 모델이 포함된다.
OpenAI가 GPT-5급 추론 능력을 갖춘 실시간 음성 모델 GPT-Realtime-2를 API에 공개했다. 실시간 번역 모델 GPT-Realtime-Translate, 스트리밍 전사 모델 GPT-Realtime-Whisper도 함께 출시됐다.
AI 음성 스타트업 ElevenLabs가 연간 반복 매출(ARR) 5억 달러를 넘어서며 블랙록, NVIDIA, 도이치텔레콤 등 기관 투자자를 시리즈 D에 새로 유치했다. 회사 가치는 110억 달러로 평가됐다.
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.
Google DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Gemini Live와 Google Search Live에 순차 적용되고, 개발자는 Google AI Studio에서 바로 사용할 수 있다고 밝혔다. Google은 이 모델을 자사 최고 품질의 audio model로 규정하며, 더 낮은 latency와 향상된 tonal understanding, 그리고 ComplexFuncBench Audio 90.8% 성능을 강조했다.
Google은 Mar 26, 2026에 Gemini 3.1 Flash Live를 발표하고 실시간 음성 상호작용 성능을 전면 강화했다. Gemini Live API, Gemini Enterprise for Customer Experience, Search Live, Gemini Live까지 같은 audio stack을 확장한 점이 핵심이다.
Launch HN 스레드는 RunAnywhere의 MetalRT와 RCLI를 끌어올리며, Apple Silicon에서 STT·LLM·TTS를 클라우드 없이 엮는 저지연 음성 AI 파이프라인에 관심을 모았다.
Launch HN 스레드로 RunAnywhere의 RCLI가 부각됐다. 이 프로젝트는 Apple Silicon에서 STT, LLM, TTS, 로컬 RAG, 38개 macOS action을 모두 로컬로 묶어 macOS용 Voice AI를 구축하려는 시도다.
IBM과 Deepgram은 Feb 24, 2026, Deepgram의 speech-to-text와 text-to-speech를 watsonx Orchestrate에 통합한다고 발표했다. Deepgram은 IBM의 첫 voice partner가 되며, voice AI를 enterprise agent workflow 안으로 더 깊게 넣는 움직임이다.