#voice-ai

AI X/Twitter 3d ago 1 min read

기업용 에이전트가 75% 문의 처리, OpenAI Presence의 의미

고객지원과 내부 업무에 쓰이는 AI 에이전트가 실험 단계를 넘어 운영 제품으로 이동하고 있다. OpenAI는 Presence가 자체 영어 전화지원에서 인입 문의 75%를 사람 없이 해결했고, 10일 만에 인간 이관을 15%포인트 낮췄다고 밝혔다.

#openai #agents #enterprise-ai

LLM X/Twitter Jul 9, 2026 1 min read

GPT-Live, ChatGPT 음성 AI를 동시에 듣고 말하는 풀듀플렉스 대화로 전환

ChatGPT 음성 경험이 순차 발화에서 실시간 양방향 대화로 이동한다. OpenAI는 GPT-Live가 말을 끊고 다시 이어가는 풀듀플렉스 구조와 음성 비서용 안전 필터를 함께 갖췄다고 설명했다.

#openai #gpt-live #voice-ai

AI X/Twitter May 14, 2026 1 min read

고객 지원 현장을 위한 음성 에이전트, Grok Voice Think Fast 1.0 공개

xAI가 기업 고객 지원에 특화된 음성 에이전트 Grok Voice Think Fast 1.0을 출시했다. 실시간 대화 처리와 빠른 응답 속도를 강조한 제품으로, 콜센터 자동화 시장을 겨냥한다.

#xai #grok #voice-ai

AI X/Twitter May 14, 2026 1 min read

OpenAI Realtime API, 추론 가능한 음성 모델 3종 정식 출시

OpenAI가 Realtime API에 GPT-5급 추론 능력을 갖춘 음성 모델 3종을 추가했다. gpt-4o-realtime-preview, gpt-4o-mini-realtime-preview, 그리고 새로운 추론 특화 모델이 포함된다.

#openai #voice-ai #realtime-api

AI X/Twitter May 8, 2026 1 min read

OpenAI, GPT-5급 음성 추론 모델 GPT-Realtime-2 API 공개

OpenAI가 GPT-5급 추론 능력을 갖춘 실시간 음성 모델 GPT-Realtime-2를 API에 공개했다. 실시간 번역 모델 GPT-Realtime-Translate, 스트리밍 전사 모델 GPT-Realtime-Whisper도 함께 출시됐다.

#openai #gpt-realtime #voice-ai

AI May 7, 2026 1 min read

ElevenLabs, ARR 5억 달러 돌파—블랙록·NVIDIA가 110억 달러 평가 라운드에 합류

AI 음성 스타트업 ElevenLabs가 연간 반복 매출(ARR) 5억 달러를 넘어서며 블랙록, NVIDIA, 도이치텔레콤 등 기관 투자자를 시리즈 D에 새로 유치했다. 회사 가치는 110억 달러로 평가됐다.

#elevenlabs #voice-ai #funding

AI Hacker News Apr 28, 2026 2 min read

Microsoft VibeVoice, HN이 물고 늘어진 건 “오픈소스”라는 표현

Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.

#microsoft #voice-ai #asr

AI X/Twitter Apr 18, 2026 1 min read

Grok STT API, 25+개 언어와 시간당 $0.10 가격으로 음성 API 시장 겨냥

왜 중요한가: xAI가 Grok Voice stack을 standalone STT/TTS API로 내며 batch $0.10/hour, streaming $0.20/hour 가격을 제시했다. 25+ languages, diarization, word-level timestamps는 call center와 meeting transcription 시장을 직접 겨냥한다.

#xai #grok #speech-to-text

LLM X/Twitter Mar 30, 2026 2 min read

Google, Gemini 3.1 Flash Live 출시 확대… Gemini Live·Search Live·AI Studio 동시 전개

Google DeepMind는 2026년 3월 26일 Gemini 3.1 Flash Live가 Gemini Live와 Google Search Live에 순차 적용되고, 개발자는 Google AI Studio에서 바로 사용할 수 있다고 밝혔다. Google은 이 모델을 자사 최고 품질의 audio model로 규정하며, 더 낮은 latency와 향상된 tonal understanding, 그리고 ComplexFuncBench Audio 90.8% 성능을 강조했다.

#google #gemini #voice-ai

LLM Mar 27, 2026 1 min read

Google, Gemini 3.1 Flash Live 공개... 저지연 voice agent와 Search Live 글로벌 확대

Google은 Mar 26, 2026에 Gemini 3.1 Flash Live를 발표하고 실시간 음성 상호작용 성능을 전면 강화했다. Gemini Live API, Gemini Enterprise for Customer Experience, Search Live, Gemini Live까지 같은 audio stack을 확장한 점이 핵심이다.

#google #gemini #voice-ai

LLM Hacker News Mar 11, 2026 1 min read

Hacker News가 Apple Silicon용 온디바이스 음성 AI 스택을 밀어 올리다

Launch HN 스레드는 RunAnywhere의 MetalRT와 RCLI를 끌어올리며, Apple Silicon에서 STT·LLM·TTS를 클라우드 없이 엮는 저지연 음성 AI 파이프라인에 관심을 모았다.

#apple-silicon #on-device-ai #voice-ai

LLM Hacker News Mar 11, 2026 1 min read

Hacker News가 조명한 Apple Silicon용 RunAnywhere 로컬 Voice AI 스택

Launch HN 스레드로 RunAnywhere의 RCLI가 부각됐다. 이 프로젝트는 Apple Silicon에서 STT, LLM, TTS, 로컬 RAG, 38개 macOS action을 모두 로컬로 묶어 macOS용 Voice AI를 구축하려는 시도다.

#apple-silicon #local-ai #voice-ai