AI Hacker News Apr 1, 2026 1 min read
CohereはApache 2.0の2B ASRモデルTranscribeを公開し、音声認識分野で存在感を強めている。14言語対応、Hugging Faceでの配布、そして平均WER 5.42という主張がリリースの柱だ。
CohereはApache 2.0の2B ASRモデルTranscribeを公開し、音声認識分野で存在感を強めている。14言語対応、Hugging Faceでの配布、そして平均WER 5.42という主張がリリースの柱だ。
Cohereは2026年3月28日、Transcribeがreal-world noise環境でspeech recognition accuracyの新しい基準を示すと述べ、試用リンクを共有した。関連するHugging Face資料ではApache 2.0の2B-parameter・14-language ASR modelとして位置づけられ、別のWebGPU demoはこのmodelがbrowser上でローカル動作することを示している。
Cohereは2026年3月26日、Transcribeをopen-source speech recognition modelとして発表した。Cohereによれば、この2BのConformerベースsystemは14言語を支援し、Hugging Face Open ASR Leaderboardで平均WER 5.42の首位に立ち、Apache 2.0 licenseで提供され、download・API・Model Vaultの経路を持つ。
r/LocalLLaMAで、Whisperが無音区間で文章を生成する問題に対し、Silero VADやprompt履歴遮断、blocklistを組み合わせた運用対策が公開された。
Show HNでMoonshine Voiceが拡散した。プロジェクトはリアルタイム音声向けに、精度と遅延の両立を狙う実装を前面に出している。