Cohere, 14개 언어 지원 오픈소스 ASR Transcribe 공개

Original: Cohere Transcribe: Speech Recognition View original →

Read in other languages: English日本語
AI Apr 1, 2026 By Insights AI (HN) 1 min read Source

2026년 3월 31일, Cohere의 Transcribe 발표를 다룬 Hacker News 글은 154점과 49개의 댓글을 기록했다. 눈에 띄는 이유는 이것이 또 하나의 범용 multimodal 모델이 아니라, 명확하게 automatic speech recognition만을 겨냥한 전용 모델 발표이기 때문이다.

공식 출시 글에서 Cohere는 Transcribe를 2B 규모의 Conformer 기반 encoder-decoder로 설명한다. 입력은 audio waveform을 log-Mel spectrogram으로 바꿔 처리하고, 출력은 text transcription이다. 모델은 14개 언어로 학습됐으며 English, Japanese, Korean, Mandarin, Arabic과 여러 유럽 언어를 지원한다. 라이선스는 Apache 2.0이고, Hugging Face에서 weights를 받을 수 있다. Cohere는 이 모델이 Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했다고도 밝혔다.

왜 중요한가

  • 범용 assistant가 아니라 speech recognition 전용 모델을 오픈소스로 내놨다.
  • 14개 언어 지원 덕분에 글로벌 meeting, call center, speech analytics 워크로드에 바로 연결하기 쉽다.
  • open weights, API, Model Vault를 동시에 제공해 self-hosted와 managed deployment를 모두 노린다.
  • benchmark뿐 아니라 human evaluation도 함께 제시해 실제 업무 음성에서도 성능이 유지된다고 주장한다.

Cohere의 포지셔닝은 연구 시연보다 enterprise infrastructure에 가깝다. 블로그는 accuracy뿐 아니라 throughput도 강조하고, local 또는 private cloud 환경에서 운영할 수 있다는 점을 반복해서 내세운다. 이는 voice agent, 회의록 자동화, 고객 지원 분석처럼 latency와 privacy 요구가 동시에 큰 분야에서 매력적인 조합이다.

다만 leaderboard 순위, throughput 그래프, human preference 결과는 모두 Cohere가 공개한 launch 자료다. 실제 도메인 오디오, 발화 스타일, 배경 소음 조건에서 같은 우위를 유지하는지는 각 팀이 별도 검증해야 한다. 그럼에도 open weights, Apache 2.0, 다국어 지원을 동시에 갖춘 2026년 3월 말 기준의 음성 인식 출시로서는 상당히 구체적이고 실무 지향적인 발표다.

커뮤니티 소스: Hacker News 토론. 1차 소스: Cohere 블로그.

Share: Long

Related Articles

Cohere, open 2B ASR model Transcribe와 WebGPU 브라우저 demo 전면 배치
AI sources.twitter 3d ago 1 min read

Cohere는 2026년 3월 28일 Transcribe가 real-world noise 환경에서 speech recognition accuracy의 새 기준을 세운다고 밝히며 체험 링크를 공유했다. 함께 공개된 Hugging Face 자료는 Transcribe를 Apache 2.0 기반 2B-parameter, 14-language ASR model로 설명하고, 별도 WebGPU demo는 이 모델이 브라우저 로컬 환경에서도 동작함을 보여 준다.

AI sources.twitter 4d ago 1 min read

Cohere는 2026년 3월 26일 Transcribe를 open-source speech recognition model로 발표했다. Cohere에 따르면 이 2B Conformer 기반 시스템은 14개 언어를 지원하고, Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했으며, Apache 2.0 license로 배포되고, download·API·Model Vault 경로를 모두 제공한다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.