xAIが狙うのは会話デモではなく実務向け音声エージェントだ。Grok Voice Think Fast 1.0はτ-voice Bench首位を掲げ、25言語超に対応し、Starlink運用では販売転換率20%、サポート解決率70%を出したとしている。
#voice-agents
RSS FeedMistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。
Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。
OpenAI Developersは2026年3月30日、PerplexityがRealtime APIベースのvoice体験をproductionで運用しながら得た知見を公開したと伝えた。記事によるとPerplexityは月間数百万件のvoice sessionを処理しており、context chunking、audio formatの標準化、noisy environmentでのturn-taking調整を見直した。
Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。
LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。
LiveKitはXで、xAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。low-latency streaming、telephony readiness、20超の言語対応に加え、LiveKitの文書では別のxAI API keyなしで`xai/tts-1`を使う方法と、`XAI_API_KEY`ベースのplugin経路が案内されている。
Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。
Hacker Newsで共有された Nvidia PersonaPlex 7B のSwift/MLX移植記は、ローカルspeech-to-speech agentではモデル品質だけでなく、streaming・buffering・interrupt処理が同じくらい重要だと示す。