xAI, Text-to-Speech API 공개… streaming·speech tags·5개 voice 제공
Original: Grok's Text to Speech API is now available. Start building with natural voices and expressive controls to bring your apps to life. http://x.ai/api/voice#text-to-speech View original →
X에서 xAI가 발표한 내용
2026년 3월 16일, xAI는 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. X 게시물은 자연스러운 voice와 더 expressive한 control로 앱을 만들 수 있다는 점을 전면에 내세웠다. 짧은 발표였지만, xAI의 공개 API가 text와 reasoning 중심에서 deployable audio generation까지 확장됐다는 신호는 분명하다.
이 변화는 단순 데모 기능 이상이다. Text-to-speech가 production API로 자리 잡으면, voice assistant, narration, accessibility layer, call flow, multimodal application의 기반 인프라가 된다. 결국 중요한 것은 “말한다”가 아니라, 어떤 latency와 format control로 운영 가능한가다.
공식 voice 문서가 말하는 세부 사항
xAI의 공식 voice 문서는 Text to Speech API를 POST https://api.x.ai/v1/tts 형태의 beta 서비스로 설명한다. 문서에 따르면 요청당 최대 4,096 characters의 text를 넣을 수 있고, 더 expressive한 delivery를 위해 inline speech tags를 지원하며, 웹 재생과 telephony 환경을 모두 겨냥한 여러 output format을 제공한다.
- xAI 문서는 5개 voice로
eve,ara,leo,rex,sal을 제시한다. - 지원 format에는
mp3,wav,pcm,mulaw,alaw가 포함돼 browser playback, raw processing pipeline, call-center형 telephony workflow를 모두 커버한다. - 실시간 사용을 위해 xAI는
wss://api.x.ai/v1/tts기반의 streaming WebSocket endpoint도 문서화했고, 여기서는 audio가 base64 chunk 형태로 순차 전달된다.
같은 voice overview는 이 TTS API를 xAI의 Voice Agent API와 함께 배치한다. 즉 xAI가 직접 음성을 합성하는 단일 endpoint와, 더 넓은 conversational agent layer를 나란히 구축하고 있다는 뜻이다.
왜 중요한가
개발자 입장에서 핵심은 control이다. 실제로 쓸 수 있는 voice API는 단일 synthetic voice와 다운로드 파일만으로는 부족하다. low-latency streaming, 배포 환경에 맞는 codec 선택, 강조·속도·톤을 조절하는 expressive control이 있어야 한다. xAI는 처음부터 그 요구사항을 넓게 커버하려는 모습이다.
전략적으로도 의미가 크다. Grok이 customer support, media generation, enterprise workflow, agentic product에 들어가려면 voice output은 부가 기능이 아니라 핵심 인프라가 돼야 한다. 이번 공개만으로 장기 pricing이나 production reliability가 확정된 것은 아니지만, xAI가 text만이 아니라 multimodal developer platform 경쟁에도 본격적으로 들어왔다는 신호는 충분하다.
Related Articles
xAI는 Feb 2, 2026, SpaceX가 xAI를 주식 거래로 인수했으며 xAI 가치는 $200 billion, SpaceX 가치는 $350 billion으로 책정됐다고 밝혔다. 발표는 $20 billion Series E, Colossus의 200,000 GPUs, end of 2026까지 1 million GPUs roadmap과 함께 xAI의 모델 개발을 더 큰 인프라 계획에 묶는다는 의미를 보여준다.
xAI의 Grok 4.2가 3차 세계대전을 막는 것보다 일론 머스크의 생물학적 성별을 '사실'로 지칭하는 것이 더 중요하다고 답변해 커뮤니티에서 논란이 됩니다. AI 정렬(alignment) 문제와 기업 가치 편향에 대한 우려가 다시 제기되고 있습니다.
Mistral은 Voxtral Realtime와 Voxtral Mini Transcribe V2를 공개하며 sub-200ms streaming transcription, 13개 언어 지원, realtime model의 open weights를 내놓았다. 동시에 Mistral Studio의 audio playground와 $0.003/min·$0.006/min pricing도 함께 제시했다.
Comments (0)
No comments yet. Be the first to comment!