#voice-agents

LLM X/Twitter Apr 25, 2026 1 min read

xAI、Grok Voice Think Fast 1.0投入　τ-voice首位と25言語超対応

xAIが狙うのは会話デモではなく実務向け音声エージェントだ。Grok Voice Think Fast 1.0はτ-voice Bench首位を掲げ、25言語超に対応し、Starlink運用では販売転換率20%、サポート解決率70%を出したとしている。

#xai #grok-voice #voice-agents

AI X/Twitter Apr 5, 2026 1 min read

Mistral、低遅延の多言語音声エージェント向けに Voxtral TTS を公開

Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。

#mistral #tts #voice-agents

LLM X/Twitter Apr 3, 2026 1 min read

Google AI、リアルタイム voice・vision agent向け Gemini 3.1 Flash Live を投入

Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。

#google-ai #gemini #live-api

LLM X/Twitter Mar 30, 2026 1 min read

OpenAIとPerplexity、Realtime APIでvoice agentを量産運用した教訓を共有

OpenAI Developersは2026年3月30日、PerplexityがRealtime APIベースのvoice体験をproductionで運用しながら得た知見を公開したと伝えた。記事によるとPerplexityは月間数百万件のvoice sessionを処理しており、context chunking、audio formatの標準化、noisy environmentでのturn-taking調整を見直した。

#openai #realtime-api #voice-agents

LLM X/Twitter Mar 26, 2026 1 min read

Google DeepMind、低遅延voice・vision agent向けGemini 3.1 Flash Liveを公開

Google DeepMindは2026年3月26日、Gemini 3.1 Flash LiveがGoogle AI StudioのLive APIでpreview提供されると発表した。Googleブログによれば、このモデルはリアルタイムvoice・vision agent向けで、noisy環境でのtool triggeringを改善し、90超の言語でmultimodal会話を扱える。

#google-deepmind #gemini #live-api

AI X/Twitter Mar 23, 2026 1 min read

LiveKit、voice agent向けAdaptive Interruption Handlingを正式提供　VAD誤検知を緩和

LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。

#livekit #voice-agents #speech

AI X/Twitter Mar 20, 2026 1 min read

LiveKit、xAI TTSをInferenceに追加し20超の言語と別APIキー不要の経路を提供

LiveKitはXで、xAIのGrok text-to-speechがLiveKit Inferenceで利用可能になったと発表した。low-latency streaming、telephony readiness、20超の言語対応に加え、LiveKitの文書では別のxAI API keyなしで`xai/tts-1`を使う方法と、`XAI_API_KEY`ベースのplugin経路が案内されている。

#livekit #xai #tts

AI X/Twitter Mar 14, 2026 1 min read

Together AI、リアルタイム Voice Agent向けone-cloud stackを公開

Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。

#voice-agents #inference #realtime

LLM Hacker News Mar 8, 2026 1 min read

Apple Silicon上でSwift/MLX化した Nvidia PersonaPlex 7B、ローカル音声エージェントを実用域へ近づける

Hacker Newsで共有された Nvidia PersonaPlex 7B のSwift/MLX移植記は、ローカルspeech-to-speech agentではモデル品質だけでなく、streaming・buffering・interrupt処理が同じくらい重要だと示す。

#speech-to-speech #apple-silicon #mlx