Mistral, Voxtral Realtime와 Voxtral Mini Transcribe V2로 speech stack 확장

Mistral은 두 가지 연결된 음성 제품을 동시에 내놓으며 speech 라인업을 확장했다. 하나는 low-latency streaming transcription을 위한 Voxtral Realtime이고, 다른 하나는 high-efficiency batch transcription을 위한 Voxtral Mini Transcribe V2다. 이 조합은 live voice agent, subtitle generation, meeting transcription, post-call processing까지 아우르는 보다 완성된 voice stack을 Mistral에 제공한다. Mistral Studio에 새 audio playground도 함께 추가된 만큼, 이번 발표는 단순 연구 공개보다 developer platform 업데이트 성격이 더 강하다.

전략적으로 더 흥미로운 쪽은 Voxtral Realtime이다. Mistral은 이 모델이 offline model을 chunk 단위로 억지 변환한 방식이 아니라, streaming audio를 위해 설계된 구조라고 설명했다. latency는 sub-200ms까지 조정 가능하며, 2.4 seconds 지연에서는 최신 batch model인 Voxtral Mini Transcribe V2와 같은 수준에 도달하고, 480ms에서도 word error rate 차이가 1-2% 안에 머문다고 밝혔다. 또한 13개 언어를 지원하고 4B parameter footprint로 동작하며, Hugging Face에서 Apache 2.0으로 공개돼 privacy-sensitive deployment나 edge 환경에서도 쓰기 쉽다는 점을 강조했다.

Voxtral Mini Transcribe V2는 가격 대비 성능을 앞세운 실전형 모델로 포지셔닝된다. Mistral은 FLEURS benchmark에서 약 4% word error rate를 기록하면서도 가격은 $0.003/min이라고 설명했고, 정확도 측면에서 GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 우수하다고 주장했다. ElevenLabs Scribe v2와 비교해서는 품질을 맞추면서도 audio 처리 속도는 약 3x 빠르고 비용은 one-fifth 수준이라고 덧붙였다. 기능 측면에서는 speaker diarization, 최대 100개의 word 또는 phrase를 넣는 context biasing, word-level timestamps, 13개 언어 지원, noise robustness, 요청당 최대 3 hours audio 처리 등 production workload에 바로 필요한 기능을 갖췄다.

Mistral은 실험 비용을 낮추는 tooling도 함께 묶었다. Mistral Studio의 audio playground에서는 최대 10개 파일을 업로드할 수 있고, diarization on/off, timestamp granularity, context bias term 설정을 조정할 수 있다. 지원 형식은 .mp3, .wav, .m4a, .flac, .ogg이며 파일당 최대 1GB까지 허용된다. API 가격은 Voxtral Realtime이 $0.006/min, Voxtral Mini Transcribe V2가 $0.003/min이다. 또한 두 모델 모두 on-premise 또는 private cloud를 통한 GDPR·HIPAA 준수 배치가 가능하다고 밝혔다. speech 기능이 agent stack의 핵심 요소로 빠르게 자리 잡는 가운데, Mistral은 latency, openness, operating cost를 동시에 경쟁 포인트로 삼으려는 모습이다.

Mistral, Voxtral Realtime와 Voxtral Mini Transcribe V2로 speech stack 확장

Related Articles

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개

Mistral Workflows 공개… 노트북 데모형 AI를 운영 등급 업무 흐름으로 끌어올린다

Mistral Voxtral TTS, open-weight speech generation을 다시 local AI stack의 중심으로

Comments (0)

Leave a Comment

Related Articles

Mistral, 저지연 다국어 음성 에이전트를 위한 Voxtral TTS 공개
AI X/Twitter Apr 5, 2026 1 min read

Mistral Workflows 공개… 노트북 데모형 AI를 운영 등급 업무 흐름으로 끌어올린다

Mistral Voxtral TTS, open-weight speech generation을 다시 local AI stack의 중심으로
AI Reddit Mar 27, 2026 1 min read