Grok STT API, 25+개 언어와 시간당 $0.10 가격으로 음성 API 시장 겨냥
Original: Grok's Speech to Text API is now available. Instant, multi-speaker transcription across 25 languages - at the best price in the market. https://x.ai/news/grok-stt-and-tts-apis View original →
tweet가 드러낸 변화
xAI의 2026년 4월 18일 X post는 Grok을 chat product에서 developer-facing voice infrastructure로 넓히는 신호다. 핵심 문장은 Grok's Speech to Text API is now available. 이다. 같은 post는 25 languages와 multi-speaker transcription을 함께 내세웠고, 연결된 xAI blog는 Speech to Text와 Text to Speech를 별도 API로 제공한다고 설명했다.
가격이 이 소식의 무게를 키운다. xAI는 blog에서 batch transcription을 $0.10/hour, streaming transcription을 $0.20/hour로 제시했고, Text to Speech는 $4.20 per 1 million characters라고 적었다. 음성 agent, contact center, meeting notes, podcast editing처럼 audio volume이 큰 workflow에서는 모델 품질만큼 단가와 latency가 adoption을 좌우한다.
account와 linked context
@xai는 Grok, Grok API, Colossus infrastructure, voice 기능처럼 xAI의 product와 platform update를 직접 내보내는 공식 account다. 이번 tweet는 단순한 app 기능보다 API surface 확대에 가깝다. blog는 word-level timestamps, speaker diarization, multi-channel support, Inverse Text Normalization을 강조한다. 예를 들어 spoken numbers, dates, currencies를 structured text로 바꾸는 기능은 medical, legal, finance transcription에서 후처리 비용을 줄이는 쪽에 초점이 있다.
benchmark section도 공격적이다. xAI는 overall Word Error Rate를 Grok STT 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%로 비교했다. 자체 평가이므로 독립 검증이 필요하지만, 공개 가격과 함께 제시된 점은 developers가 바로 계산할 수 있는 구매 신호다.
next watch
다음은 real-time WebSocket latency, rate limits, data retention policy다. Voice API는 transcript 정확도만으로 평가되지 않는다. regulated industry 고객은 audio가 어디에 저장되는지, diarization error가 audit에 어떻게 남는지, streaming 중 partial transcript를 어떻게 수정하는지 봐야 한다. xAI가 console과 docs에서 이 부분을 얼마나 투명하게 보여주는지가 Grok STT의 실제 경쟁력을 가를 것이다.
출처: source tweet, xAI blog.
Related Articles
xAI가 기업 고객 지원에 특화된 음성 에이전트 Grok Voice Think Fast 1.0을 출시했다. 실시간 대화 처리와 빠른 응답 속도를 강조한 제품으로, 콜센터 자동화 시장을 겨냥한다.
xAI가 Grok Build를 유료 사용자 전체 베타로 열며, 챗봇을 앱·자동화 제작 도구로 확장했다. 트윗은 Plan Mode, Imagine, CLI를 한 흐름에 묶고 조회수 5,300만 회를 넘기며 빠르게 확산됐다.
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
Comments (0)
No comments yet. Be the first to comment!