VibeVoiceにHNがまず聞いたこと、「今回は何が本当に公開されたのか」
Original: VibeVoice: Open-source frontier voice AI View original →
Hacker NewsでVibeVoiceの投稿が伸びた理由は、「またMicrosoftの音声AIだ」という一言では片付かなかったからだ。最初の反応はもっと実務寄りだった。「今回は実際にどこまで公開されているのか」。READMEでは、VibeVoiceはASRとTTSを束ねた音声AIファミリーとして紹介されている。長時間音声を一気に処理するASR、ストリーミング入力を受けるリアルタイムTTS、長尺のマルチスピーカー音声生成まで、ひとつのリポジトリでつながって見える。
数字で目を引くのはASR側だ。READMEによれば、VibeVoice-ASRは最大60分の音声を単一パスで文字起こしし、話者、タイムスタンプ、発話内容を構造化して返し、50以上の言語をサポートする。Realtime 0.5B TTSはストリーミングのテキスト入力と長尺音声生成を打ち出している。技術の説明も具体的で、7.5Hzの低フレーム連続音声トークナイザーを使い、LLMが文脈を捉え、diffusion headが音響ディテールを作る構成だとされている。
ただし、HNのコメントは性能そのものより履歴と公開範囲に敏感だった。あるコメントは「これは安全面の理由で一度引っ込められたあのプロジェクトではないか」と問いかけた。実際、READMEには2025年9月、意図に沿わない使われ方が確認されたため、元のVibeVoice-TTSコードをリポジトリから削除したと書かれている。今のリポジトリは、その後に公開されたASR、リアルタイムTTS、技術レポート、プレイグラウンドを中心に構成されている。だからHNで出た「正確に何が開いているのか」という質問は、ただの揚げ足取りではなかった。
このスレッドは、音声AIをめぐるコミュニティの現在地もよく表している。もう「オープンソース」という言葉だけでは通らない。実際に動かせるコードはどこまであるのか。どの機能は論文やデモ止まりなのか。安全上の判断のあと、公開範囲はどう変わったのか。VibeVoiceが注目されたのは、モデルの名前以上に、その境界線をきちんと確かめたくなるプロジェクトだったからだ。
Related Articles
Hacker News did not treat VibeVoice as a straightforward launch post. The thread quickly turned into an audit of what was actually open, what had been pulled before, and whether the models are compelling enough to matter against existing voice stacks.
A March 9, 2026 LocalLLaMA discussion highlighted Fish Audio’s S2 release, which combines fine-grained inline speech control, multilingual coverage, and an SGLang-based streaming stack.
The short manifesto spread because it frames closed AI access as an operational dependency, not just a licensing preference.