#speech

AI X/Twitter May 8, 2026 1 min read

OpenAI、GPT-5級推論を音声へ——GPT-Realtime-2をAPIで公開

OpenAIがGPT-5クラスの推論能力を備えたリアルタイム音声モデル「GPT-Realtime-2」をAPIで公開した。リアルタイム翻訳モデル「GPT-Realtime-Translate」とストリーミング文字起こしモデル「GPT-Realtime-Whisper」も同時リリースされた。

#openai #gpt-realtime #voice-ai

LLM May 5, 2026 1 min read

Sakana AI、KAMEアーキテクチャ発表 — レイテンシなしでLLM知識をリアルタイム注入

Sakana AIが音声AIの「低遅延」と「知識品質」を両立するKAME（亀）アーキテクチャを公開。フロントエンドS2SモデルとバックエンドLLMをタンデム接続し、2.1秒のパイプライン遅延なしでMT-Bench 6.43を達成した。

#sakana-ai #research #open-source

AI Reddit Mar 27, 2026 1 min read

MistralのVoxtral TTS、open-weight speech generationをもう一度local AI stackの中心へ

LocalLLaMAが強く反応したのは明確だ。Mistralが低latency、多言語対応、open weightsを同時に出し、まだ閉じがちなspeech layerに実用的な選択肢を持ち込んだからだ。

#mistral #tts #speech

AI X/Twitter Mar 23, 2026 1 min read

LiveKit、voice agent向けAdaptive Interruption Handlingを正式提供　VAD誤検知を緩和

LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。

#livekit #voice-agents #speech

AI Hacker News Mar 20, 2026 1 min read

Hacker Newsで注目された超小型CPU向けTTS、Kitten TTS v0.8

Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。

#tts #onnx #edge-ai

AI Mar 15, 2026 1 min read

Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張

Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。

#mistral #speech #transcription

AI Reddit Mar 15, 2026 1 min read