Mistral, Voxtral Realtime와 Voxtral Mini Transcribe V2로 speech stack 확장
Original: Voxtral transcribes at the speed of sound. View original →
Mistral은 두 가지 연결된 음성 제품을 동시에 내놓으며 speech 라인업을 확장했다. 하나는 low-latency streaming transcription을 위한 Voxtral Realtime이고, 다른 하나는 high-efficiency batch transcription을 위한 Voxtral Mini Transcribe V2다. 이 조합은 live voice agent, subtitle generation, meeting transcription, post-call processing까지 아우르는 보다 완성된 voice stack을 Mistral에 제공한다. Mistral Studio에 새 audio playground도 함께 추가된 만큼, 이번 발표는 단순 연구 공개보다 developer platform 업데이트 성격이 더 강하다.
전략적으로 더 흥미로운 쪽은 Voxtral Realtime이다. Mistral은 이 모델이 offline model을 chunk 단위로 억지 변환한 방식이 아니라, streaming audio를 위해 설계된 구조라고 설명했다. latency는 sub-200ms까지 조정 가능하며, 2.4 seconds 지연에서는 최신 batch model인 Voxtral Mini Transcribe V2와 같은 수준에 도달하고, 480ms에서도 word error rate 차이가 1-2% 안에 머문다고 밝혔다. 또한 13개 언어를 지원하고 4B parameter footprint로 동작하며, Hugging Face에서 Apache 2.0으로 공개돼 privacy-sensitive deployment나 edge 환경에서도 쓰기 쉽다는 점을 강조했다.
Voxtral Mini Transcribe V2는 가격 대비 성능을 앞세운 실전형 모델로 포지셔닝된다. Mistral은 FLEURS benchmark에서 약 4% word error rate를 기록하면서도 가격은 $0.003/min이라고 설명했고, 정확도 측면에서 GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 우수하다고 주장했다. ElevenLabs Scribe v2와 비교해서는 품질을 맞추면서도 audio 처리 속도는 약 3x 빠르고 비용은 one-fifth 수준이라고 덧붙였다. 기능 측면에서는 speaker diarization, 최대 100개의 word 또는 phrase를 넣는 context biasing, word-level timestamps, 13개 언어 지원, noise robustness, 요청당 최대 3 hours audio 처리 등 production workload에 바로 필요한 기능을 갖췄다.
Mistral은 실험 비용을 낮추는 tooling도 함께 묶었다. Mistral Studio의 audio playground에서는 최대 10개 파일을 업로드할 수 있고, diarization on/off, timestamp granularity, context bias term 설정을 조정할 수 있다. 지원 형식은 .mp3, .wav, .m4a, .flac, .ogg이며 파일당 최대 1GB까지 허용된다. API 가격은 Voxtral Realtime이 $0.006/min, Voxtral Mini Transcribe V2가 $0.003/min이다. 또한 두 모델 모두 on-premise 또는 private cloud를 통한 GDPR·HIPAA 준수 배치가 가능하다고 밝혔다. speech 기능이 agent stack의 핵심 요소로 빠르게 자리 잡는 가운데, Mistral은 latency, openness, operating cost를 동시에 경쟁 포인트로 삼으려는 모습이다.
Related Articles
Mistral AI는 2026년 3월 26일 Voxtral TTS가 expressive speech, 9개 언어 지원, 낮은 latency, 쉬운 voice adaptation을 제공한다고 밝혔다. Mistral의 3월 23일 launch post는 4B-parameter 모델이 약 3초 reference audio로 custom voice adaptation을 수행하고, 약 70ms model latency와 최대 2분 native audio generation을 지원한다고 설명한다.
중요한 점은 agent가 notebook 데모에서 멈추지 않게 만드는 층이 나왔다는 데 있다. Mistral는 Workflows가 이미 6개 실명 고객사에서 critical process를 돌리고 있으며, 중단 후 재개와 관측성, 내결함성을 기본으로 묶었다고 적었다.
LocalLLaMA의 높은 반응은 분명했다. Mistral이 낮은 latency, multilingual 지원, open weights를 함께 내놓으며 여전히 닫혀 있던 speech layer에 실전형 선택지를 제시했기 때문이다.
Comments (0)
No comments yet. Be the first to comment!