#audio

AI 1d ago 1 min read

OpenAI、音声認識APIをfile用とlive用へ分離　GPT TranscribeがGA

OpenAIは2026年7月28日、GPT TranscribeとGPT Live TranscribeをGAにした。completed file向けとlive audio向けを分け、keyword hintと複数language hintを新しい推奨経路に置く。

#openai #audio #speech-to-text

AI Reddit May 24, 2026 1 min read

人には聞こえないprompt injection、音声assistantの新しい攻撃面

Redditの議論は恐怖より検証可能性に向かった。マイク、スピーカー、圧縮を通って命令が安定して届くかが焦点だ。

#prompt-injection #voice-assistants #security

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMA、Qwen3 audio supportが入ったllama.cpp mergeを追う

54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。

#qwen3 #llama-cpp #audio

AI X/Twitter Apr 5, 2026 1 min read

Mistral、低遅延の多言語音声エージェント向けに Voxtral TTS を公開

Mistral AIは2026年3月26日、Voxtral TTSがexpressive speech、9言語対応、低latency、容易なvoice adaptationを備えると述べた。3月23日のlaunch postでは、4B-parameterモデルが約3秒のreference audioからcustom voice adaptationを行い、約70msのmodel latencyと最大2分のnative audio generationをサポートすると説明している。

#mistral #tts #voice-agents

LLM X/Twitter Apr 3, 2026 1 min read

Mistral、Voxtral と Mistral Small 4 による speech-to-speech assistant stack を提示

Mistralは2026年4月2日、Voxtralによる transcription と speech generation、Mistral Small 4 による reasoning を組み合わせ、web-search-enabled speech-to-speech assistant をおよそ150 lines of codeで構築できると示した。これは単一モデルの発表というより、real-time audio agent 向け reference architecture の提示として意味が大きい。

#mistral #audio #speech-to-speech

AI X/Twitter Mar 16, 2026 1 min read

xAI、Text-to-Speech APIを公開　streaming・speech tags・5つのvoiceを提供

xAIは2026年3月16日、GrokのText-to-Speech APIが利用可能になったと発表した。公式voiceドキュメントでは、このbeta APIが5つのvoice、inline speech tags、telephony向けcodec、low-latencyなWebSocket streamingを備えると説明している。

#xai #grok #text-to-speech

AI Mar 15, 2026 1 min read

Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張

Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。

#mistral #speech #transcription

AI Reddit Mar 15, 2026 1 min read

Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。

#tts #speech #audio