AI Hacker News Apr 28, 2026 2 min read
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
Cohere는 Apache 2.0 기반 2B ASR 모델 Transcribe를 공개하며 음성 인식 경쟁에 정면 진입했다. 14개 언어 지원, Hugging Face 배포, 그리고 5.42 평균 WER 리더보드 기록이 핵심 포인트다.
Cohere는 2026년 3월 26일 Transcribe를 open-source speech recognition model로 발표했다. Cohere에 따르면 이 2B Conformer 기반 시스템은 14개 언어를 지원하고, Hugging Face Open ASR Leaderboard에서 평균 WER 5.42로 1위를 기록했으며, Apache 2.0 license로 배포되고, download·API·Model Vault 경로를 모두 제공한다.
IBM은 2026년 3월 9일 Granite 4.0 1B Speech를 공개했다. 절반 수준의 파라미터로 이전 모델보다 더 높은 영어 전사 정확도, speculative decoding 기반 빠른 추론, 일본어를 포함한 다국어 지원을 제공한다고 밝혔다.
Show HN를 통해 Moonshine Voice가 빠르게 확산됐다. 프로젝트는 실시간 음성 제품을 겨냥해 정확도와 지연시간을 함께 개선했다고 주장한다.