xAI, Text-to-Speech API 공개… streaming·speech tags·5개 voice 제공

X에서 xAI가 발표한 내용

2026년 3월 16일, xAI는 Grok의 Text-to-Speech API가 공개됐다고 밝혔다. X 게시물은 자연스러운 voice와 더 expressive한 control로 앱을 만들 수 있다는 점을 전면에 내세웠다. 짧은 발표였지만, xAI의 공개 API가 text와 reasoning 중심에서 deployable audio generation까지 확장됐다는 신호는 분명하다.

이 변화는 단순 데모 기능 이상이다. Text-to-speech가 production API로 자리 잡으면, voice assistant, narration, accessibility layer, call flow, multimodal application의 기반 인프라가 된다. 결국 중요한 것은 “말한다”가 아니라, 어떤 latency와 format control로 운영 가능한가다.

공식 voice 문서가 말하는 세부 사항

xAI의 공식 voice 문서는 Text to Speech API를 POST https://api.x.ai/v1/tts 형태의 beta 서비스로 설명한다. 문서에 따르면 요청당 최대 4,096 characters의 text를 넣을 수 있고, 더 expressive한 delivery를 위해 inline speech tags를 지원하며, 웹 재생과 telephony 환경을 모두 겨냥한 여러 output format을 제공한다.

xAI 문서는 5개 voice로 eve, ara, leo, rex, sal을 제시한다.
지원 format에는 mp3, wav, pcm, mulaw, alaw가 포함돼 browser playback, raw processing pipeline, call-center형 telephony workflow를 모두 커버한다.
실시간 사용을 위해 xAI는 wss://api.x.ai/v1/tts 기반의 streaming WebSocket endpoint도 문서화했고, 여기서는 audio가 base64 chunk 형태로 순차 전달된다.

같은 voice overview는 이 TTS API를 xAI의 Voice Agent API와 함께 배치한다. 즉 xAI가 직접 음성을 합성하는 단일 endpoint와, 더 넓은 conversational agent layer를 나란히 구축하고 있다는 뜻이다.

왜 중요한가

개발자 입장에서 핵심은 control이다. 실제로 쓸 수 있는 voice API는 단일 synthetic voice와 다운로드 파일만으로는 부족하다. low-latency streaming, 배포 환경에 맞는 codec 선택, 강조·속도·톤을 조절하는 expressive control이 있어야 한다. xAI는 처음부터 그 요구사항을 넓게 커버하려는 모습이다.

전략적으로도 의미가 크다. Grok이 customer support, media generation, enterprise workflow, agentic product에 들어가려면 voice output은 부가 기능이 아니라 핵심 인프라가 돼야 한다. 이번 공개만으로 장기 pricing이나 production reliability가 확정된 것은 아니지만, xAI가 text만이 아니라 multimodal developer platform 경쟁에도 본격적으로 들어왔다는 신호는 충분하다.

출처: xAI X 게시물 · xAI Text to Speech 문서 · xAI Voice overview

xAI, Text-to-Speech API 공개… streaming·speech tags·5개 voice 제공

X에서 xAI가 발표한 내용

공식 voice 문서가 말하는 세부 사항

왜 중요한가

Related Articles

xAI, 2분 만에 목소리 복제하는 Voice Cloning API 출시

Grok Voice 에이전트, 분당 $0.05로 만드는 xAI 노코드 음성 도구 베타 공개

Grok 4.2, 3차 세계대전보다 일론 머스크 성별 호칭 오류를 더 중시