Cohere는 Apache 2.0 기반 2B ASR 모델 Transcribe를 공개하며 음성 인식 경쟁에 정면 진입했다. 14개 언어 지원, Hugging Face 배포, 그리고 5.42 평균 WER 리더보드 기록이 핵심 포인트다.
#speech-recognition
RSS FeedCohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.
Cohere는 2026년 3월 26일 Transcribe를 open-source speech recognition model로 발표했다. Cohere에 따르면 이 2B Conformer 기반 시스템은 14개 언어를 지원하고, Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했으며, Apache 2.0 license로 배포되고, download·API·Model Vault 경로를 모두 제공한다.
r/LocalLLaMA에서 Whisper가 무음 구간에 텍스트를 생성하는 문제와 함께, Silero VAD·prompt history 차단·blocklist를 결합한 운영 대응법이 공유됐다.
Show HN를 통해 Moonshine Voice가 빠르게 확산됐다. 프로젝트는 실시간 음성 제품을 겨냥해 정확도와 지연시간을 함께 개선했다고 주장한다.
Mistral AI의 Voxtral Realtime 4B 음성인식 모델을 순수 C 언어로 구현한 voxtral.c가 공개되었습니다. Python이나 CUDA 없이 C 표준 라이브러리만으로 실행되며, Apple Silicon에서는 실시간보다 2.5배 빠른 속도로 음성을 텍스트로 변환할 수 있습니다. 메모리 맵핑 방식으로 '거의 즉시' 로딩되며, 무제한 길이의 오디오를 1.8GB 메모리로 처리할 수 있습니다.