Cohere、14言語対応のオープンソースASR Transcribeを公開

2026年3月31日、CohereのTranscribe発表を扱ったHacker News投稿は154ポイント、49件のコメントを集めた。注目された理由は、これがまた一つの汎用multimodalモデルではなく、automatic speech recognitionに特化した専用モデルの公開だったからだ。

公式リリースでCohereは、Transcribeを2B規模のConformerベースencoder-decoderとして説明している。入力はaudio waveformからlog-Mel spectrogramに変換され、出力はtext transcriptionになる。モデルは14言語で学習されており、English、Japanese、Korean、Mandarin、Arabic、複数のEuropean languagesをサポートする。ライセンスはApache 2.0で、weightsはHugging Faceから取得できる。さらにCohereは、Hugging Face Open ASR Leaderboardで平均WER 5.42の首位だと述べている。

このリリースが重要な理由

汎用assistantへの音声機能追加ではなく、ASR専用モデルとして設計されている。
open weightsとApache 2.0により、self-hostedなenterprise導入がしやすい。
14言語対応のため、meeting transcriptionやspeech analytics、customer support用途に直接つなげやすい。
Hugging Face、API、Model Vaultの3経路を示し、導入形態の選択肢を広げている。

Cohereの狙いは研究デモよりもenterprise speech infrastructureに近い。ブログではaccuracyだけでなくthroughputも前面に出し、local環境やprivate cloudでも動かせる点を繰り返し強調している。voice agent、会議要約、サポート通話分析のようにlatencyとprivacyの両方が重要なワークロードでは、かなり現実的な組み合わせに見える。

ただし、leaderboard順位、throughput図、human preference結果はすべてCohere自身が示したlaunch資料に基づく。既存ASRパイプラインを置き換える前には、各チームが自分たちの音声データと運用条件で検証する必要がある。それでも、open weights、実用的なライセンス、多言語対応を揃えた2026年3月末の音声認識リリースとしては、かなり具体的で実務寄りの内容だ。

コミュニティソース: Hacker News議論。一次ソース: Cohereブログ。

Cohere、14言語対応のオープンソースASR Transcribeを公開

このリリースが重要な理由

Related Articles

Cohere、open 2B ASR model TranscribeとWebGPU browser demoを前面に

Cohere、2B・Apache 2.0のspeech recognition model「Transcribe」を公開

VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」