Cohere、14言語対応のオープンソースASR Transcribeを公開
Original: Cohere Transcribe: Speech Recognition View original →
2026年3月31日、CohereのTranscribe発表を扱ったHacker News投稿は154ポイント、49件のコメントを集めた。注目された理由は、これがまた一つの汎用multimodalモデルではなく、automatic speech recognitionに特化した専用モデルの公開だったからだ。
公式リリースでCohereは、Transcribeを2B規模のConformerベースencoder-decoderとして説明している。入力はaudio waveformからlog-Mel spectrogramに変換され、出力はtext transcriptionになる。モデルは14言語で学習されており、English、Japanese、Korean、Mandarin、Arabic、複数のEuropean languagesをサポートする。ライセンスはApache 2.0で、weightsはHugging Faceから取得できる。さらにCohereは、Hugging Face Open ASR Leaderboardで平均WER 5.42の首位だと述べている。
このリリースが重要な理由
- 汎用assistantへの音声機能追加ではなく、ASR専用モデルとして設計されている。
- open weightsとApache 2.0により、self-hostedなenterprise導入がしやすい。
- 14言語対応のため、meeting transcriptionやspeech analytics、customer support用途に直接つなげやすい。
- Hugging Face、API、Model Vaultの3経路を示し、導入形態の選択肢を広げている。
Cohereの狙いは研究デモよりもenterprise speech infrastructureに近い。ブログではaccuracyだけでなくthroughputも前面に出し、local環境やprivate cloudでも動かせる点を繰り返し強調している。voice agent、会議要約、サポート通話分析のようにlatencyとprivacyの両方が重要なワークロードでは、かなり現実的な組み合わせに見える。
ただし、leaderboard順位、throughput図、human preference結果はすべてCohere自身が示したlaunch資料に基づく。既存ASRパイプラインを置き換える前には、各チームが自分たちの音声データと運用条件で検証する必要がある。それでも、open weights、実用的なライセンス、多言語対応を揃えた2026年3月末の音声認識リリースとしては、かなり具体的で実務寄りの内容だ。
コミュニティソース: Hacker News議論。一次ソース: Cohereブログ。
Related Articles
Cohereは2026年3月28日、Transcribeがreal-world noise環境でspeech recognition accuracyの新しい基準を示すと述べ、試用リンクを共有した。関連するHugging Face資料ではApache 2.0の2B-parameter・14-language ASR modelとして位置づけられ、別のWebGPU demoはこのmodelがbrowser上でローカル動作することを示している。
Cohereは2026年3月26日、Transcribeをopen-source speech recognition modelとして発表した。Cohereによれば、この2BのConformerベースsystemは14言語を支援し、Hugging Face Open ASR Leaderboardで平均WER 5.42の首位に立ち、Apache 2.0 licenseで提供され、download・API・Model Vaultの経路を持つ。
r/LocalLLaMAで、Whisperが無音区間で文章を生成する問題に対し、Silero VADやprompt履歴遮断、blocklistを組み合わせた運用対策が公開された。
Comments (0)
No comments yet. Be the first to comment!