xAI、Text-to-Speech APIを公開 streaming・speech tags・5つのvoiceを提供
Original: Grok's Text to Speech API is now available. Start building with natural voices and expressive controls to bring your apps to life. http://x.ai/api/voice#text-to-speech View original →
xAIがXで発表したこと
2026年3月16日、xAIはGrokのText-to-Speech APIが利用可能になったと発表した。X投稿では、natural voice と expressive control を使ってアプリに音声を与えられる点が強調されている。短い発表だが、xAIの公開APIがtextとreasoning中心から、実運用向けのaudio generationへ広がったことを示すシグナルとしては十分に大きい。
この変化は単なるデモ機能ではない。Text-to-speechがproduction APIになると、voice assistant、narration、accessibility layer、call flow、multimodal application の基盤になる。重要なのは「話せること」ではなく、どの程度のlatencyとformat controlで運用できるかだ。
公式voiceドキュメントの要点
xAIの公式voiceドキュメントは、Text to Speech APIを POST https://api.x.ai/v1/tts のbetaサービスとして説明している。文書によれば、1回のリクエストで最大 4,096 characters を受け付け、より expressive な読み上げのための inline speech tags をサポートし、web再生からtelephonyまで幅広い output format を提供する。
- xAIの文書は 5つのvoice として
eve、ara、leo、rex、salを挙げている。 - 対応formatには
mp3、wav、pcm、mulaw、alawがあり、browser playback、raw audio pipeline、call-center系 telephony にまたがる使い方を想定している。 - リアルタイム用途向けに、xAIは
wss://api.x.ai/v1/ttsの streaming WebSocket endpoint も用意しており、audioを base64 chunk として段階的に返す。
さらに voice overview は、このTTS APIをxAIの Voice Agent API と並べて紹介している。つまり xAI は、単純な speech synthesis と、より広い conversational agent layer の両方を揃えようとしているわけだ。
なぜ重要か
開発者にとって重要なのは control である。実用的な voice API には、1つの synthetic voice とダウンロード用ファイルだけでは足りない。low-latency streaming、展開先に合わせた codec 選択、強調や間、トーンを扱う expressive control が必要になる。xAIはその要件を最初から広めに押さえようとしている。
戦略面でも意味は大きい。Grok を customer support、media generation、enterprise workflow、agentic product に広げるなら、voice output は付属機能ではなく第一級のインフラでなければならない。今回の公開だけで long-term pricing や production reliability が決まるわけではないが、xAIがtextだけでなく multimodal developer platform 競争に本格参加していることは明確だ。
Related Articles
Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
xAIはFeb 2, 2026、SpaceXがxAIを株式取引で買収し、xAIを$200 billion、SpaceXを$350 billionと評価したと発表した。今回の発表は、$20 billionのSeries E、Colossusの200,000 GPUs、end of 2026までに1 million GPUsを目指すroadmapと合わせて、xAIのmodel roadmapをより大きなinfrastructure計画に接続する意味を持つ。
Comments (0)
No comments yet. Be the first to comment!