Mistral, Voxtral Realtime와 Voxtral Mini Transcribe V2로 speech stack 확장
Original: Voxtral transcribes at the speed of sound. View original →
Mistral은 두 가지 연결된 음성 제품을 동시에 내놓으며 speech 라인업을 확장했다. 하나는 low-latency streaming transcription을 위한 Voxtral Realtime이고, 다른 하나는 high-efficiency batch transcription을 위한 Voxtral Mini Transcribe V2다. 이 조합은 live voice agent, subtitle generation, meeting transcription, post-call processing까지 아우르는 보다 완성된 voice stack을 Mistral에 제공한다. Mistral Studio에 새 audio playground도 함께 추가된 만큼, 이번 발표는 단순 연구 공개보다 developer platform 업데이트 성격이 더 강하다.
전략적으로 더 흥미로운 쪽은 Voxtral Realtime이다. Mistral은 이 모델이 offline model을 chunk 단위로 억지 변환한 방식이 아니라, streaming audio를 위해 설계된 구조라고 설명했다. latency는 sub-200ms까지 조정 가능하며, 2.4 seconds 지연에서는 최신 batch model인 Voxtral Mini Transcribe V2와 같은 수준에 도달하고, 480ms에서도 word error rate 차이가 1-2% 안에 머문다고 밝혔다. 또한 13개 언어를 지원하고 4B parameter footprint로 동작하며, Hugging Face에서 Apache 2.0으로 공개돼 privacy-sensitive deployment나 edge 환경에서도 쓰기 쉽다는 점을 강조했다.
Voxtral Mini Transcribe V2는 가격 대비 성능을 앞세운 실전형 모델로 포지셔닝된다. Mistral은 FLEURS benchmark에서 약 4% word error rate를 기록하면서도 가격은 $0.003/min이라고 설명했고, 정확도 측면에서 GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova보다 우수하다고 주장했다. ElevenLabs Scribe v2와 비교해서는 품질을 맞추면서도 audio 처리 속도는 약 3x 빠르고 비용은 one-fifth 수준이라고 덧붙였다. 기능 측면에서는 speaker diarization, 최대 100개의 word 또는 phrase를 넣는 context biasing, word-level timestamps, 13개 언어 지원, noise robustness, 요청당 최대 3 hours audio 처리 등 production workload에 바로 필요한 기능을 갖췄다.
Mistral은 실험 비용을 낮추는 tooling도 함께 묶었다. Mistral Studio의 audio playground에서는 최대 10개 파일을 업로드할 수 있고, diarization on/off, timestamp granularity, context bias term 설정을 조정할 수 있다. 지원 형식은 .mp3, .wav, .m4a, .flac, .ogg이며 파일당 최대 1GB까지 허용된다. API 가격은 Voxtral Realtime이 $0.006/min, Voxtral Mini Transcribe V2가 $0.003/min이다. 또한 두 모델 모두 on-premise 또는 private cloud를 통한 GDPR·HIPAA 준수 배치가 가능하다고 밝혔다. speech 기능이 agent stack의 핵심 요소로 빠르게 자리 잡는 가운데, Mistral은 latency, openness, operating cost를 동시에 경쟁 포인트로 삼으려는 모습이다.
Related Articles
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.
Together AI는 March 12, 2026에 real-time voice agent용 one-cloud stack을 공개한다고 밝혔다. 공개 자료에는 under-500ms latency, 25+ region 확장, 그리고 voice-agent deployment에서 time-to-first-64-tokens를 77ms까지 낮춘 kernel 최적화 사례가 포함돼 있다.
OpenAI는 Promptfoo 인수 계획을 공개하며 agent security testing, red-teaming, traceability 기능을 OpenAI Frontier에 직접 넣겠다고 밝혔다. Promptfoo의 open-source project는 현재 license로 유지되고, 거래 종결은 customary closing conditions를 따른다.
Comments (0)
No comments yet. Be the first to comment!