Cohere、2B・Apache 2.0のspeech recognition model「Transcribe」を公開
Original: Introducing: Cohere Transcribe – a new state-of-the-art in open source speech recognition. View original →
Cohereが発表した内容
2026年3月26日、CohereはXでTranscribeを新しいstate-of-the-art open-source speech recognition modelとして紹介した。公式release pageはこの主張をより具体的にしている。Cohereによれば、Transcribeは2B parameterのConformerベースencoder-decoder modelであり、研究デモではなくproduction-grade automatic speech recognitionを前提にゼロから訓練された。
release pageが示すポイント
Cohereによると、Transcribeは14言語をサポートし、Apache 2.0 licenseで提供される。さらに同社は、このmodelが現在Hugging Face Open ASR Leaderboardで平均word error rate 5.42の首位に立ち、掲載されているopen・closedの専用speech systemsを上回るとしている。Cohereはbenchmark勝利そのものよりも、実運用で重要なlow word error rateとhigh throughputの両立を強調している。
release pageは、Transcribeをmeeting transcription、speech analytics、audio search、real-time customer support agentsのための実用的なbuilding blockとして位置付ける。提供形態も3つある。Hugging Face上のopen weights、試験導入向けのAPI、そしてmanaged private deployment向けのModel Vaultだ。これは、local infrastructure controlを望む開発者と、自前運用を避けたいenterpriseの両方を狙った構成と言える。
なぜ重要か
speechはAI stackの中でも依然として分断が大きく、強いmodelほど商用APIやより狭いlicenseに縛られやすかった。CohereはApache license、leaderboard上位の性能、比較的扱いやすいserving footprintを組み合わせることで、speech recognitionをmainstream enterprise toolchainへ引き寄せようとしている。launch benchmarkの外でもlatencyとaccuracyの主張が保たれるなら、Transcribeは品質を落とさずopen speech infrastructureを採用したい組織の有力な標準候補になりうる。
Related Articles
Show HNでMoonshine Voiceが拡散した。プロジェクトはリアルタイム音声向けに、精度と遅延の両立を狙う実装を前面に出している。
Cohereは2026年2月20日(UTC)のX投稿で、India AI Impact Summitで責任あるfrontier AI拡張と言語アクセシビリティを議論したと説明。Tiny AyaとNew Delhi commitmentsにも言及した。
Anthropicが2026年2月12日にSeries Gで300億ドルを調達し、post-money valuationが3,800億ドルに達したと発表した。資金はfrontier research、product development、infrastructure expansionに充てる方針だという。
Comments (0)
No comments yet. Be the first to comment!