Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張
Original: Voxtral transcribes at the speed of sound. View original →
Mistralは2つの連動した音声製品を同時に投入し、speech ラインを大きく広げた。1つは low-latency streaming transcription 向けの Voxtral Realtime、もう1つは high-efficiency batch transcription 向けの Voxtral Mini Transcribe V2 だ。この組み合わせによって、Mistralは live voice agent、subtitle generation、meeting transcription、post-call processing までカバーできる、より完成度の高い voice stack を手に入れたことになる。さらに Mistral Studio に audio playground も追加しており、単なる研究公開ではなく developer platform の更新として位置づけているのが分かる。
より戦略的に重要なのは Voxtral Realtime だろう。Mistralは、このモデルが offline model を chunk 処理向けに後付けで変形したものではなく、streaming audio のために設計された新しい構造だと説明する。latency は sub-200ms まで設定可能で、2.4 seconds の遅延では最新の batch model である Voxtral Mini Transcribe V2 に並び、480ms でも word error rate は 1-2% 差に収まるという。さらに 13言語をサポートし、4B parameter footprint で動作し、Hugging Face 上で Apache 2.0 の open weights として提供されるため、privacy-sensitive な deployment や edge 環境でも扱いやすい。
一方の Voxtral Mini Transcribe V2 は、価格性能比を前面に出した主力モデルだ。Mistralは FLEURS benchmark で約 4% の word error rate を達成しつつ、価格は $0.003/min としている。精度面では GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回ると主張し、ElevenLabs Scribe v2 と比べても品質を維持しながら処理速度は約 3x、コストは one-fifth だという。機能面では speaker diarization、最大 100 語または phrase の context biasing、word-level timestamps、13言語対応、noise robustness、1リクエストあたり最大 3 hours の音声処理を備え、meeting notes、call analytics、multimedia indexing など production workload に必要な要素を揃えている。
Mistralは試行のハードルを下げる tooling も同時に用意した。Mistral Studio の audio playground では、最大 10 ファイルの upload、diarization の切り替え、timestamp granularity の選択、context bias term の追加が行える。対応形式は .mp3、.wav、.m4a、.flac、.ogg で、各ファイルは最大 1GB まで受け付ける。API pricing は Voxtral Realtime が $0.006/min、Voxtral Mini Transcribe V2 が $0.003/min だ。さらに両モデルは on-premise または private cloud を通じて GDPR・HIPAA 準拠の deployment にも対応するとされる。speech 機能が agent stack の中心要素になりつつある中で、Mistralは latency、openness、operating cost を同時に競争軸に据えようとしている。
Related Articles
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。
NVIDIAとThinking Machines Labは2026年3月10日、次世代 NVIDIA Vera Rubin system を少なくとも1 gigawatt規模で導入する長期提携を発表した。training・serving system の共同設計に加え、NVIDIAによる strategic investment も含まれる。
Comments (0)
No comments yet. Be the first to comment!