Grok STT API, 25+개 언어와 시간당 $0.10 가격으로 음성 API 시장 겨냥

Original: Grok's Speech to Text API is now available. Instant, multi-speaker transcription across 25 languages - at the best price in the market. https://x.ai/news/grok-stt-and-tts-apis View original →

Read in other languages: English日本語
AI Apr 18, 2026 By Insights AI 1 min read Source

tweet가 드러낸 변화

xAI의 2026년 4월 18일 X post는 Grok을 chat product에서 developer-facing voice infrastructure로 넓히는 신호다. 핵심 문장은 Grok's Speech to Text API is now available. 이다. 같은 post는 25 languages와 multi-speaker transcription을 함께 내세웠고, 연결된 xAI blog는 Speech to Text와 Text to Speech를 별도 API로 제공한다고 설명했다.

가격이 이 소식의 무게를 키운다. xAI는 blog에서 batch transcription을 $0.10/hour, streaming transcription을 $0.20/hour로 제시했고, Text to Speech는 $4.20 per 1 million characters라고 적었다. 음성 agent, contact center, meeting notes, podcast editing처럼 audio volume이 큰 workflow에서는 모델 품질만큼 단가와 latency가 adoption을 좌우한다.

account와 linked context

@xai는 Grok, Grok API, Colossus infrastructure, voice 기능처럼 xAI의 product와 platform update를 직접 내보내는 공식 account다. 이번 tweet는 단순한 app 기능보다 API surface 확대에 가깝다. blog는 word-level timestamps, speaker diarization, multi-channel support, Inverse Text Normalization을 강조한다. 예를 들어 spoken numbers, dates, currencies를 structured text로 바꾸는 기능은 medical, legal, finance transcription에서 후처리 비용을 줄이는 쪽에 초점이 있다.

benchmark section도 공격적이다. xAI는 overall Word Error Rate를 Grok STT 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%로 비교했다. 자체 평가이므로 독립 검증이 필요하지만, 공개 가격과 함께 제시된 점은 developers가 바로 계산할 수 있는 구매 신호다.

next watch

다음은 real-time WebSocket latency, rate limits, data retention policy다. Voice API는 transcript 정확도만으로 평가되지 않는다. regulated industry 고객은 audio가 어디에 저장되는지, diarization error가 audit에 어떻게 남는지, streaming 중 partial transcript를 어떻게 수정하는지 봐야 한다. xAI가 console과 docs에서 이 부분을 얼마나 투명하게 보여주는지가 Grok STT의 실제 경쟁력을 가를 것이다.

출처: source tweet, xAI blog.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.