xAI、Text-to-Speech APIを公開 streaming・speech tags・5つのvoiceを提供
Original: Grok's Text to Speech API is now available. Start building with natural voices and expressive controls to bring your apps to life. http://x.ai/api/voice#text-to-speech View original →
xAIがXで発表したこと
2026年3月16日、xAIはGrokのText-to-Speech APIが利用可能になったと発表した。X投稿では、natural voice と expressive control を使ってアプリに音声を与えられる点が強調されている。短い発表だが、xAIの公開APIがtextとreasoning中心から、実運用向けのaudio generationへ広がったことを示すシグナルとしては十分に大きい。
この変化は単なるデモ機能ではない。Text-to-speechがproduction APIになると、voice assistant、narration、accessibility layer、call flow、multimodal application の基盤になる。重要なのは「話せること」ではなく、どの程度のlatencyとformat controlで運用できるかだ。
公式voiceドキュメントの要点
xAIの公式voiceドキュメントは、Text to Speech APIを POST https://api.x.ai/v1/tts のbetaサービスとして説明している。文書によれば、1回のリクエストで最大 4,096 characters を受け付け、より expressive な読み上げのための inline speech tags をサポートし、web再生からtelephonyまで幅広い output format を提供する。
- xAIの文書は 5つのvoice として
eve、ara、leo、rex、salを挙げている。 - 対応formatには
mp3、wav、pcm、mulaw、alawがあり、browser playback、raw audio pipeline、call-center系 telephony にまたがる使い方を想定している。 - リアルタイム用途向けに、xAIは
wss://api.x.ai/v1/ttsの streaming WebSocket endpoint も用意しており、audioを base64 chunk として段階的に返す。
さらに voice overview は、このTTS APIをxAIの Voice Agent API と並べて紹介している。つまり xAI は、単純な speech synthesis と、より広い conversational agent layer の両方を揃えようとしているわけだ。
なぜ重要か
開発者にとって重要なのは control である。実用的な voice API には、1つの synthetic voice とダウンロード用ファイルだけでは足りない。low-latency streaming、展開先に合わせた codec 選択、強調や間、トーンを扱う expressive control が必要になる。xAIはその要件を最初から広めに押さえようとしている。
戦略面でも意味は大きい。Grok を customer support、media generation、enterprise workflow、agentic product に広げるなら、voice output は付属機能ではなく第一級のインフラでなければならない。今回の公開だけで long-term pricing や production reliability が決まるわけではないが、xAIがtextだけでなく multimodal developer platform 競争に本格参加していることは明確だ。
Related Articles
xAIはGopuffと個人向けショッピングアシスタントを作っていると明かした。注目点は、チャットだけでなく音声と画像モデルを購買体験に組み込む構成だ。
xAIが自社APIを通じてVoice Cloningを正式リリース。短い音声録音から2分以内にカスタムボイスを作成できるほか、28言語・80種以上の事前構築済み音声ライブラリからも選択できる。
xAIのGrokにVercel、Canva、Gamma、S&Pグローバルの4種の新コネクタが追加された。ウェブサイトのデプロイからビジュアルコンテンツ制作、プレゼン設計、リアルタイム金融データへのアクセスまで対応し、AnthropicのMCPエコシステムやOpenAIのコネクタと直接競合する位置づけとなった。