xAI、Text-to-Speech APIを公開　streaming・speech tags・5つのvoiceを提供

xAIがXで発表したこと

2026年3月16日、xAIはGrokのText-to-Speech APIが利用可能になったと発表した。X投稿では、natural voice と expressive control を使ってアプリに音声を与えられる点が強調されている。短い発表だが、xAIの公開APIがtextとreasoning中心から、実運用向けのaudio generationへ広がったことを示すシグナルとしては十分に大きい。

この変化は単なるデモ機能ではない。Text-to-speechがproduction APIになると、voice assistant、narration、accessibility layer、call flow、multimodal application の基盤になる。重要なのは「話せること」ではなく、どの程度のlatencyとformat controlで運用できるかだ。

公式voiceドキュメントの要点

xAIの公式voiceドキュメントは、Text to Speech APIを POST https://api.x.ai/v1/tts のbetaサービスとして説明している。文書によれば、1回のリクエストで最大 4,096 characters を受け付け、より expressive な読み上げのための inline speech tags をサポートし、web再生からtelephonyまで幅広い output format を提供する。

xAIの文書は 5つのvoice として eve、ara、leo、rex、sal を挙げている。
対応formatには mp3、wav、pcm、mulaw、alaw があり、browser playback、raw audio pipeline、call-center系 telephony にまたがる使い方を想定している。
リアルタイム用途向けに、xAIは wss://api.x.ai/v1/tts の streaming WebSocket endpoint も用意しており、audioを base64 chunk として段階的に返す。

さらに voice overview は、このTTS APIをxAIの Voice Agent API と並べて紹介している。つまり xAI は、単純な speech synthesis と、より広い conversational agent layer の両方を揃えようとしているわけだ。

なぜ重要か

開発者にとって重要なのは control である。実用的な voice API には、1つの synthetic voice とダウンロード用ファイルだけでは足りない。low-latency streaming、展開先に合わせた codec 選択、強調や間、トーンを扱う expressive control が必要になる。xAIはその要件を最初から広めに押さえようとしている。

戦略面でも意味は大きい。Grok を customer support、media generation、enterprise workflow、agentic product に広げるなら、voice output は付属機能ではなく第一級のインフラでなければならない。今回の公開だけで long-term pricing や production reliability が決まるわけではないが、xAIがtextだけでなく multimodal developer platform 競争に本格参加していることは明確だ。

出典: xAI X投稿 · xAI Text to Speech docs · xAI Voice overview

xAI、Text-to-Speech APIを公開　streaming・speech tags・5つのvoiceを提供

xAIがXで発表したこと

公式voiceドキュメントの要点

なぜ重要か

Related Articles

Grok、Gopuffの買い物体験へチャット・音声・画像モデルで進出

xAI、2分以内で声のクローンを作れるVoice Cloning APIをリリース

GrokにVercel・Canva・Gamma・S&Pグローバルのコネクタが追加