LiveKit、xAI TTSをInferenceに追加し20超の言語と別APIキー不要の経路を提供
Original: LiveKit adds xAI text-to-speech to LiveKit Inference View original →
LiveKitは2026年3月16日、XでxAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。投稿では、この統合をlow-latency streaming、telephony readiness、多言語対応を備えたproduction-readyなvoice agent向け経路として紹介している。
リンク先のLiveKit文書は実装面をより具体的に説明している。それによると、xAI TTSはLiveKit AgentsでLiveKit Inference経由と、直接接続用のxAI plugin経由の両方で使える。管理された経路では、開発者は別途xAI API keyを用意しなくてもxai/tts-1を利用でき、すでにLiveKit中心のagent stackを運用しているチームにとって導入障壁を下げる。
LiveKitは、このモデルがEnglish、Japanese、Korean、Chinese、Hindi、Portuguese、Spanish、Turkish、Vietnameseなど20を超える言語を支えると説明している。文書の例では、開発者がAgentSession内でvoiceを直接指定し、必要に応じてlanguageや追加パラメータもinference TTS classに渡せる。つまり単なるwrapperではなく、LiveKitのagent frameworkに組み込まれた正式な部品として扱われている。
一方で、より直接的な制御を求めるチーム向けに、LiveKitはXAI_API_KEYとlivekit-agents[xai]を使うplugin経路も文書化している。この二本立ては重要だ。手軽さを優先するチームはLiveKit Inferenceを使い、認証、課金、独自デプロイを細かく管理したいチームはxAIへの直接接続を選べるからだ。
今回の意味はTTS connectorが1つ増えたこと以上に大きい。voice agentsは、よりmultimodalに、より多言語に、そして電話網やリアルタイムアプリの流れに深く組み込まれる方向へ進んでいる。LiveKitがxAI TTSをInferenceに入れたことで、開発者は音声pipelineをゼロから作り直さずに、別のfrontier-modelベンダーをそのstackへ接続しやすくなった。
Related Articles
xAIはGopuffと個人向けショッピングアシスタントを作っていると明かした。注目点は、チャットだけでなく音声と画像モデルを購買体験に組み込む構成だ。
Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。
LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。