Mistral、Voxtral RealtimeとVoxtral Mini Transcribe V2でspeech stackを拡張

Original: Voxtral transcribes at the speed of sound. View original →

Read in other languages: 한국어English
AI Mar 15, 2026 By Insights AI 1 min read 1 views Source

Mistralは2つの連動した音声製品を同時に投入し、speech ラインを大きく広げた。1つは low-latency streaming transcription 向けの Voxtral Realtime、もう1つは high-efficiency batch transcription 向けの Voxtral Mini Transcribe V2 だ。この組み合わせによって、Mistralは live voice agent、subtitle generation、meeting transcription、post-call processing までカバーできる、より完成度の高い voice stack を手に入れたことになる。さらに Mistral Studio に audio playground も追加しており、単なる研究公開ではなく developer platform の更新として位置づけているのが分かる。

より戦略的に重要なのは Voxtral Realtime だろう。Mistralは、このモデルが offline model を chunk 処理向けに後付けで変形したものではなく、streaming audio のために設計された新しい構造だと説明する。latency は sub-200ms まで設定可能で、2.4 seconds の遅延では最新の batch model である Voxtral Mini Transcribe V2 に並び、480ms でも word error rate は 1-2% 差に収まるという。さらに 13言語をサポートし、4B parameter footprint で動作し、Hugging Face 上で Apache 2.0 の open weights として提供されるため、privacy-sensitive な deployment や edge 環境でも扱いやすい。

一方の Voxtral Mini Transcribe V2 は、価格性能比を前面に出した主力モデルだ。Mistralは FLEURS benchmark で約 4% の word error rate を達成しつつ、価格は $0.003/min としている。精度面では GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回ると主張し、ElevenLabs Scribe v2 と比べても品質を維持しながら処理速度は約 3x、コストは one-fifth だという。機能面では speaker diarization、最大 100 語または phrase の context biasing、word-level timestamps、13言語対応、noise robustness、1リクエストあたり最大 3 hours の音声処理を備え、meeting notes、call analytics、multimedia indexing など production workload に必要な要素を揃えている。

Mistralは試行のハードルを下げる tooling も同時に用意した。Mistral Studio の audio playground では、最大 10 ファイルの upload、diarization の切り替え、timestamp granularity の選択、context bias term の追加が行える。対応形式は .mp3、.wav、.m4a、.flac、.ogg で、各ファイルは最大 1GB まで受け付ける。API pricing は Voxtral Realtime が $0.006/min、Voxtral Mini Transcribe V2 が $0.003/min だ。さらに両モデルは on-premise または private cloud を通じて GDPR・HIPAA 準拠の deployment にも対応するとされる。speech 機能が agent stack の中心要素になりつつある中で、Mistralは latency、openness、operating cost を同時に競争軸に据えようとしている。

Share: Long

Related Articles

AI sources.twitter 1d ago 1 min read

Together AIはMarch 12, 2026にreal-time voice agent向けone-cloud stackを公開すると発表した。公開資料にはunder-500ms latency、25+ regionでのscaling、そしてvoice-agent deploymentでtime-to-first-64-tokensを77msまで下げたkernel最適化の事例が含まれている。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.