LiveKit、xAI TTSをInferenceに追加し20超の言語と別APIキー不要の経路を提供
Original: LiveKit adds xAI text-to-speech to LiveKit Inference View original →
LiveKitは2026年3月16日、XでxAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。投稿では、この統合をlow-latency streaming、telephony readiness、多言語対応を備えたproduction-readyなvoice agent向け経路として紹介している。
リンク先のLiveKit文書は実装面をより具体的に説明している。それによると、xAI TTSはLiveKit AgentsでLiveKit Inference経由と、直接接続用のxAI plugin経由の両方で使える。管理された経路では、開発者は別途xAI API keyを用意しなくてもxai/tts-1を利用でき、すでにLiveKit中心のagent stackを運用しているチームにとって導入障壁を下げる。
LiveKitは、このモデルがEnglish、Japanese、Korean、Chinese、Hindi、Portuguese、Spanish、Turkish、Vietnameseなど20を超える言語を支えると説明している。文書の例では、開発者がAgentSession内でvoiceを直接指定し、必要に応じてlanguageや追加パラメータもinference TTS classに渡せる。つまり単なるwrapperではなく、LiveKitのagent frameworkに組み込まれた正式な部品として扱われている。
一方で、より直接的な制御を求めるチーム向けに、LiveKitはXAI_API_KEYとlivekit-agents[xai]を使うplugin経路も文書化している。この二本立ては重要だ。手軽さを優先するチームはLiveKit Inferenceを使い、認証、課金、独自デプロイを細かく管理したいチームはxAIへの直接接続を選べるからだ。
今回の意味はTTS connectorが1つ増えたこと以上に大きい。voice agentsは、よりmultimodalに、より多言語に、そして電話網やリアルタイムアプリの流れに深く組み込まれる方向へ進んでいる。LiveKitがxAI TTSをInferenceに入れたことで、開発者は音声pipelineをゼロから作り直さずに、別のfrontier-modelベンダーをそのstackへ接続しやすくなった。
Related Articles
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
Comments (0)
No comments yet. Be the first to comment!