OpenAIがGPT-5クラスの推論能力を備えたリアルタイム音声モデル「GPT-Realtime-2」をAPIで公開した。リアルタイム翻訳モデル「GPT-Realtime-Translate」とストリーミング文字起こしモデル「GPT-Realtime-Whisper」も同時リリースされた。
#speech
RSS FeedSakana AIが音声AIの「低遅延」と「知識品質」を両立するKAME(亀)アーキテクチャを公開。フロントエンドS2SモデルとバックエンドLLMをタンデム接続し、2.1秒のパイプライン遅延なしでMT-Bench 6.43を達成した。
LocalLLaMAが強く反応したのは明確だ。Mistralが低latency、多言語対応、open weightsを同時に出し、まだ閉じがちなspeech layerに実用的な選択肢を持ち込んだからだ。
LiveKitは2026年3月19日、実際のuser interruptionとbackchannelや雑音を区別できるaudio modelを学習したと発表した。ブログによればこの機能はLiveKit Agentsで一般提供となり、500ms overlap speechで86% precisionと100% recallを記録し、最新のPython・TypeScript agent SDKで標準有効化される。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
IBMは2026年3月9日、Granite 4.0 1B Speechを公開した。前世代の約半分のparameterで英語ASR精度を改善し、speculative decodingによる高速化、日本語を含む多言語対応を打ち出している。
開発者Nick TikhonovovがSTT → LLM → TTSのフルパイプラインを含みながら平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントの構築方法を公開しました。