Skip to content

#voice-agents

RSS Feed
AI X/Twitter Apr 5, 2026 1 min read

Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。

LLM X/Twitter Apr 3, 2026 1 min read

Google AIは2026年3月26日、リアルタイム voice・vision agent を構築する開発者向けに Gemini 3.1 Flash Live を投入すると述べた。Googleは自然会話に近い応答速度、noisy environmentでの task completion 改善、complex instruction following の向上を強調し、Live API文書は low-latency multimodal streaming、tool use、70言語対応を説明している。

LLM X/Twitter Mar 30, 2026 1 min read

OpenAI Developersは2026年3月30日、PerplexityがRealtime APIベースのvoice体験をproductionで運用しながら得た知見を公開したと伝えた。記事によるとPerplexityは月間数百万件のvoice sessionを処理しており、context chunking、audio formatの標準化、noisy environmentでのturn-taking調整を見直した。

AI X/Twitter Mar 23, 2026 1 min read

LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。