AI Hacker News Apr 29, 2026 1 min read
HNの反応は「また音声モデルが来た」よりも、「今回は何が公開されたのか」を確かめる方向に向いた。VibeVoiceは長時間ASRとリアルタイムTTSを前面に出す一方、コミュニティは過去のコード撤回と現在の公開範囲を先に見にいった。
HNの反応は「また音声モデルが来た」よりも、「今回は何が公開されたのか」を確かめる方向に向いた。VibeVoiceは長時間ASRとリアルタイムTTSを前面に出す一方、コミュニティは過去のコード撤回と現在の公開範囲を先に見にいった。
CohereはApache 2.0の2B ASRモデルTranscribeを公開し、音声認識分野で存在感を強めている。14言語対応、Hugging Faceでの配布、そして平均WER 5.42という主張がリリースの柱だ。
Cohereは2026年3月26日、Transcribeをopen-source speech recognition modelとして発表した。Cohereによれば、この2BのConformerベースsystemは14言語を支援し、Hugging Face Open ASR Leaderboardで平均WER 5.42の首位に立ち、Apache 2.0 licenseで提供され、download・API・Model Vaultの経路を持つ。
IBMは2026年3月9日、Granite 4.0 1B Speechを公開した。前世代の約半分のparameterで英語ASR精度を改善し、speculative decodingによる高速化、日本語を含む多言語対応を打ち出している。
Show HNでMoonshine Voiceが拡散した。プロジェクトはリアルタイム音声向けに、精度と遅延の両立を狙う実装を前面に出している。