Redditの議論は恐怖より検証可能性に向かった。マイク、スピーカー、圧縮を通って命令が安定して届くかが焦点だ。
#audio
RSS Feed54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。
Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。
Mistralは2026年4月2日、Voxtralによる transcription と speech generation、Mistral Small 4 による reasoning を組み合わせ、web-search-enabled speech-to-speech assistant をおよそ150 lines of codeで構築できると示した。これは単一モデルの発表というより、real-time audio agent 向け reference architecture の提示として意味が大きい。
xAIは2026年3月16日、GrokのText-to-Speech APIが利用可能になったと発表した。公式voiceドキュメントでは、このbeta APIが5つのvoice、inline speech tags、telephony向けcodec、low-latencyなWebSocket streamingを備えると説明している。
Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。