Cohere、2B・Apache 2.0のspeech recognition model「Transcribe」を公開

Cohereが発表した内容

2026年3月26日、CohereはXでTranscribeを新しいstate-of-the-art open-source speech recognition modelとして紹介した。公式release pageはこの主張をより具体的にしている。Cohereによれば、Transcribeは2B parameterのConformerベースencoder-decoder modelであり、研究デモではなくproduction-grade automatic speech recognitionを前提にゼロから訓練された。

release pageが示すポイント

Cohereによると、Transcribeは14言語をサポートし、Apache 2.0 licenseで提供される。さらに同社は、このmodelが現在Hugging Face Open ASR Leaderboardで平均word error rate 5.42の首位に立ち、掲載されているopen・closedの専用speech systemsを上回るとしている。Cohereはbenchmark勝利そのものよりも、実運用で重要なlow word error rateとhigh throughputの両立を強調している。

release pageは、Transcribeをmeeting transcription、speech analytics、audio search、real-time customer support agentsのための実用的なbuilding blockとして位置付ける。提供形態も3つある。Hugging Face上のopen weights、試験導入向けのAPI、そしてmanaged private deployment向けのModel Vaultだ。これは、local infrastructure controlを望む開発者と、自前運用を避けたいenterpriseの両方を狙った構成と言える。

なぜ重要か

speechはAI stackの中でも依然として分断が大きく、強いmodelほど商用APIやより狭いlicenseに縛られやすかった。CohereはApache license、leaderboard上位の性能、比較的扱いやすいserving footprintを組み合わせることで、speech recognitionをmainstream enterprise toolchainへ引き寄せようとしている。launch benchmarkの外でもlatencyとaccuracyの主張が保たれるなら、Transcribeは品質を落とさずopen speech infrastructureを採用したい組織の有力な標準候補になりうる。

出典: Cohere X投稿 · Cohere release page

Cohere、2B・Apache 2.0のspeech recognition model「Transcribe」を公開

Cohereが発表した内容

release pageが示すポイント

なぜ重要か

Related Articles

Cohere、14言語対応のオープンソースASR Transcribeを公開

MoonshineのオープンウェイトSTTがHNで注目、Whisper Large v3比較を提示

Cohere、open 2B ASR model TranscribeとWebGPU browser demoを前面に