xAI, Text-to-Speech API 공개… streaming·speech tags·5개 voice 제공
Original: Grok's Text to Speech API is now available. Start building with natural voices and expressive controls to bring your apps to life. http://x.ai/api/voice#text-to-speech View original →
X에서 xAI가 발표한 내용
2026년 3월 16일, xAI는 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. X 게시물은 자연스러운 voice와 더 expressive한 control로 앱을 만들 수 있다는 점을 전면에 내세웠다. 짧은 발표였지만, xAI의 공개 API가 text와 reasoning 중심에서 deployable audio generation까지 확장됐다는 신호는 분명하다.
이 변화는 단순 데모 기능 이상이다. Text-to-speech가 production API로 자리 잡으면, voice assistant, narration, accessibility layer, call flow, multimodal application의 기반 인프라가 된다. 결국 중요한 것은 “말한다”가 아니라, 어떤 latency와 format control로 운영 가능한가다.
공식 voice 문서가 말하는 세부 사항
xAI의 공식 voice 문서는 Text to Speech API를 POST https://api.x.ai/v1/tts 형태의 beta 서비스로 설명한다. 문서에 따르면 요청당 최대 4,096 characters의 text를 넣을 수 있고, 더 expressive한 delivery를 위해 inline speech tags를 지원하며, 웹 재생과 telephony 환경을 모두 겨냥한 여러 output format을 제공한다.
- xAI 문서는 5개 voice로
eve,ara,leo,rex,sal을 제시한다. - 지원 format에는
mp3,wav,pcm,mulaw,alaw가 포함돼 browser playback, raw processing pipeline, call-center형 telephony workflow를 모두 커버한다. - 실시간 사용을 위해 xAI는
wss://api.x.ai/v1/tts기반의 streaming WebSocket endpoint도 문서화했고, 여기서는 audio가 base64 chunk 형태로 순차 전달된다.
같은 voice overview는 이 TTS API를 xAI의 Voice Agent API와 함께 배치한다. 즉 xAI가 직접 음성을 합성하는 단일 endpoint와, 더 넓은 conversational agent layer를 나란히 구축하고 있다는 뜻이다.
왜 중요한가
개발자 입장에서 핵심은 control이다. 실제로 쓸 수 있는 voice API는 단일 synthetic voice와 다운로드 파일만으로는 부족하다. low-latency streaming, 배포 환경에 맞는 codec 선택, 강조·속도·톤을 조절하는 expressive control이 있어야 한다. xAI는 처음부터 그 요구사항을 넓게 커버하려는 모습이다.
전략적으로도 의미가 크다. Grok이 customer support, media generation, enterprise workflow, agentic product에 들어가려면 voice output은 부가 기능이 아니라 핵심 인프라가 돼야 한다. 이번 공개만으로 장기 pricing이나 production reliability가 확정된 것은 아니지만, xAI가 text만이 아니라 multimodal developer platform 경쟁에도 본격적으로 들어왔다는 신호는 충분하다.
Related Articles
xAI가 Gopuff와 함께 개인화 쇼핑 비서를 만들고 있다고 밝혔다. 텍스트 채팅뿐 아니라 음성과 이미지 모델까지 포함해 커머스 검색이 대화형 추천으로 이동하는 흐름이다.
xAI가 API를 통해 음성 복제 서비스 Voice Cloning을 정식 출시했다. 2분 이내에 개인 목소리를 복제하거나 28개 언어, 80개 이상의 사전 제작 음성에서 선택해 음성 에이전트·오디오북·게임 캐릭터에 즉시 적용할 수 있다.
xAI의 Grok에 Vercel, Canva, Gamma, S&P Global 4종의 새 커넥터가 추가됐다. Grok 대화 내에서 직접 웹사이트 배포, 비주얼 콘텐츠 제작, 프레젠테이션 디자인, 실시간 금융 데이터 조회가 가능해졌으며, Claude MCP 생태계와 OpenAI 커넥터와 직접 경쟁 구도를 형성한다.