왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.
#voice-ai
RSS FeedGoogle DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Gemini Live와 Google Search Live에 순차 적용되고, 개발자는 Google AI Studio에서 바로 사용할 수 있다고 밝혔다. Google은 이 모델을 자사 최고 품질의 audio model로 규정하며, 더 낮은 latency와 향상된 tonal understanding, 그리고 ComplexFuncBench Audio 90.8% 성능을 강조했다.
Google은 Mar 26, 2026에 Gemini 3.1 Flash Live를 발표하고 실시간 음성 상호작용 성능을 전면 강화했다. Gemini Live API, Gemini Enterprise for Customer Experience, Search Live, Gemini Live까지 같은 audio stack을 확장한 점이 핵심이다.
Launch HN 스레드는 RunAnywhere의 MetalRT와 RCLI를 끌어올리며, Apple Silicon에서 STT·LLM·TTS를 클라우드 없이 엮는 저지연 음성 AI 파이프라인에 관심을 모았다.
Launch HN 스레드로 RunAnywhere의 RCLI가 부각됐다. 이 프로젝트는 Apple Silicon에서 STT, LLM, TTS, 로컬 RAG, 38개 macOS action을 모두 로컬로 묶어 macOS용 Voice AI를 구축하려는 시도다.
IBM과 Deepgram은 Feb 24, 2026, Deepgram의 speech-to-text와 text-to-speech를 watsonx Orchestrate에 통합한다고 발표했다. Deepgram은 IBM의 첫 voice partner가 되며, voice AI를 enterprise agent workflow 안으로 더 깊게 넣는 움직임이다.