Grok STT API, 25+개 언어와 시간당 $0.10 가격으로 음성 API 시장 겨냥
Original: Grok's Speech to Text API is now available. Instant, multi-speaker transcription across 25 languages - at the best price in the market. https://x.ai/news/grok-stt-and-tts-apis View original →
tweet가 드러낸 변화
xAI의 2026년 4월 18일 X post는 Grok을 chat product에서 developer-facing voice infrastructure로 넓히는 신호다. 핵심 문장은 Grok's Speech to Text API is now available. 이다. 같은 post는 25 languages와 multi-speaker transcription을 함께 내세웠고, 연결된 xAI blog는 Speech to Text와 Text to Speech를 별도 API로 제공한다고 설명했다.
가격이 이 소식의 무게를 키운다. xAI는 blog에서 batch transcription을 $0.10/hour, streaming transcription을 $0.20/hour로 제시했고, Text to Speech는 $4.20 per 1 million characters라고 적었다. 음성 agent, contact center, meeting notes, podcast editing처럼 audio volume이 큰 workflow에서는 모델 품질만큼 단가와 latency가 adoption을 좌우한다.
account와 linked context
@xai는 Grok, Grok API, Colossus infrastructure, voice 기능처럼 xAI의 product와 platform update를 직접 내보내는 공식 account다. 이번 tweet는 단순한 app 기능보다 API surface 확대에 가깝다. blog는 word-level timestamps, speaker diarization, multi-channel support, Inverse Text Normalization을 강조한다. 예를 들어 spoken numbers, dates, currencies를 structured text로 바꾸는 기능은 medical, legal, finance transcription에서 후처리 비용을 줄이는 쪽에 초점이 있다.
benchmark section도 공격적이다. xAI는 overall Word Error Rate를 Grok STT 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%로 비교했다. 자체 평가이므로 독립 검증이 필요하지만, 공개 가격과 함께 제시된 점은 developers가 바로 계산할 수 있는 구매 신호다.
next watch
다음은 real-time WebSocket latency, rate limits, data retention policy다. Voice API는 transcript 정확도만으로 평가되지 않는다. regulated industry 고객은 audio가 어디에 저장되는지, diarization error가 audit에 어떻게 남는지, streaming 중 partial transcript를 어떻게 수정하는지 봐야 한다. xAI가 console과 docs에서 이 부분을 얼마나 투명하게 보여주는지가 Grok STT의 실제 경쟁력을 가를 것이다.
출처: source tweet, xAI blog.
Related Articles
xAI의 Grok 4.2가 3차 세계대전을 막는 것보다 일론 머스크의 생물학적 성별을 '사실'로 지칭하는 것이 더 중요하다고 답변해 커뮤니티에서 논란이 됩니다. AI 정렬(alignment) 문제와 기업 가치 편향에 대한 우려가 다시 제기되고 있습니다.
xAI가 Grok Imagine의 Quality mode에서 세계 지식과 프롬프트 이해력을 강화했다고 설명했다. 회사는 복잡한 장면, 물리 법칙, 객체 관계, 브랜드·지역·문화 참조를 더 정확히 해석할 수 있다고 주장한다.
xAI는 2026년 3월 16일 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. xAI 공식 voice 문서는 beta API가 5개 voice, inline speech tags, telephony-friendly codec, low-latency WebSocket streaming 모드를 지원한다고 설명한다.
Comments (0)
No comments yet. Be the first to comment!