Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張

Mistralは2つの連動した音声製品を同時に投入し、speech ラインを大きく広げた。1つは low-latency streaming transcription 向けの Voxtral Realtime、もう1つは high-efficiency batch transcription 向けの Voxtral Mini Transcribe V2 だ。この組み合わせによって、Mistralは live voice agent、subtitle generation、meeting transcription、post-call processing までカバーできる、より完成度の高い voice stack を手に入れたことになる。さらに Mistral Studio に audio playground も追加しており、単なる研究公開ではなく developer platform の更新として位置づけているのが分かる。

より戦略的に重要なのは Voxtral Realtime だろう。Mistralは、このモデルが offline model を chunk 処理向けに後付けで変形したものではなく、streaming audio のために設計された新しい構造だと説明する。latency は sub-200ms まで設定可能で、2.4 seconds の遅延では最新の batch model である Voxtral Mini Transcribe V2 に並び、480ms でも word error rate は 1-2% 差に収まるという。さらに 13言語をサポートし、4B parameter footprint で動作し、Hugging Face 上で Apache 2.0 の open weights として提供されるため、privacy-sensitive な deployment や edge 環境でも扱いやすい。

一方の Voxtral Mini Transcribe V2 は、価格性能比を前面に出した主力モデルだ。Mistralは FLEURS benchmark で約 4% の word error rate を達成しつつ、価格は $0.003/min としている。精度面では GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回ると主張し、ElevenLabs Scribe v2 と比べても品質を維持しながら処理速度は約 3x、コストは one-fifth だという。機能面では speaker diarization、最大 100 語または phrase の context biasing、word-level timestamps、13言語対応、noise robustness、1リクエストあたり最大 3 hours の音声処理を備え、meeting notes、call analytics、multimedia indexing など production workload に必要な要素を揃えている。

Mistralは試行のハードルを下げる tooling も同時に用意した。Mistral Studio の audio playground では、最大 10 ファイルの upload、diarization の切り替え、timestamp granularity の選択、context bias term の追加が行える。対応形式は .mp3、.wav、.m4a、.flac、.ogg で、各ファイルは最大 1GB まで受け付ける。API pricing は Voxtral Realtime が $0.006/min、Voxtral Mini Transcribe V2 が $0.003/min だ。さらに両モデルは on-premise または private cloud を通じて GDPR・HIPAA 準拠の deployment にも対応するとされる。speech 機能が agent stack の中心要素になりつつある中で、Mistralは latency、openness、operating cost を同時に競争軸に据えようとしている。

Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張

Related Articles

Mistral、低遅延の多言語音声エージェント向けに Voxtral TTS を公開

Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目

MistralのVoxtral TTS、open-weight speech generationをもう一度local AI stackの中心へ

Related Articles

Mistral、低遅延の多言語音声エージェント向けに Voxtral TTS を公開
AI X/Twitter Apr 5, 2026 1 min read

Fish Audio S2、inline感情制御と高速ストリーミングを両立するオープンTTSとして注目
AI Reddit Mar 15, 2026 1 min read

MistralのVoxtral TTS、open-weight speech generationをもう一度local AI stackの中心へ
AI Reddit Mar 27, 2026 1 min read