VibeVoice에 HN이 바로 물은 것, “이번엔 뭐가 실제로 열렸나”
Original: VibeVoice: Open-source frontier voice AI View original →
Hacker News에서 VibeVoice 글이 화제가 된 이유는 “와, 마이크로소프트가 또 음성 AI를 냈네” 수준이 아니었다. 첫 반응은 훨씬 실무적이었다. “이번에 실제로 공개된 범위가 어디까지인가?” README를 보면 VibeVoice는 ASR과 TTS를 함께 묶는 음성 AI 계열로 소개된다. 장시간 음성을 한 번에 처리하는 ASR, 스트리밍 입력을 받는 실시간 TTS, 장문 멀티스피커 음성 합성까지 한 저장소 안에서 연결해 보여준다.
가장 눈에 띄는 수치는 ASR 쪽이다. 저장소 설명상 VibeVoice-ASR은 60분 길이의 오디오를 단일 패스로 전사하고, 화자·타임스탬프·내용 구조를 함께 뽑아내며, 50개 이상 언어를 지원한다. 실시간 TTS 0.5B는 스트리밍 텍스트 입력과 장문 음성 생성을 전면에 세웠다. 핵심 기술 설명도 구체적이다. 7.5Hz 초저프레임 연속 음성 토크나이저로 긴 시퀀스를 다루고, LLM이 텍스트 맥락을 잡고 diffusion head가 음향 디테일을 만드는 구조라고 적혀 있다.
그런데 HN 댓글은 성능 수치보다 이력과 범위를 먼저 따졌다. 한 댓글은 “이거 안전 문제로 한 번 내렸다가 다시 본 그 프로젝트 아니냐”고 물었다. 실제로 README에는 2025년 9월, 공개 뒤 의도와 맞지 않는 사용이 확인돼 VibeVoice-TTS 코드를 저장소에서 제거했다는 기록이 남아 있다. 지금 저장소는 그 이후 공개된 ASR, 실시간 TTS, 기술 문서, 플레이그라운드를 중심으로 구성돼 있다. 그래서 HN에서 나온 “정확히 무엇이 열려 있나”라는 질문은 괜한 시비가 아니라 아주 현실적인 확인 절차였다.
이 스레드는 음성 AI 커뮤니티의 현재 감각도 잘 보여준다. 이제는 오픈소스라는 단어만으로 환호하지 않는다. 어떤 모델이 실제 코드로 내려왔는지, 어떤 기능은 논문과 데모만 남았는지, 안전 이슈 뒤에 공개 범위가 어떻게 바뀌었는지를 먼저 확인한다. VibeVoice가 받은 관심도 모델 자체만큼 공개 범위와 운영 방식에 대한 집요한 확인에서 나왔다.
Related Articles
Hacker News는 VibeVoice를 새 모델 공개로만 보지 않았다. 무엇이 실제로 열려 있는지, 예전에 왜 코드를 내렸다가 다시 올렸는지, 그리고 기존 음성 스택과 비교해 정말 의미가 있는지가 토론의 중심이었다.
HN이 이 글에 반응한 이유는 fake stars 자체보다, AI/LLM repo 시대에 “인기”라는 신호가 얼마나 싸게 만들어질 수 있는지였기 때문이다. 댓글들은 star 수 대신 commit, issue, code, 실제 사용자 흔적을 보라고 모였다.
Cohere는 Apache 2.0 기반 2B ASR 모델 Transcribe를 공개하며 음성 인식 경쟁에 정면 진입했다. 14개 언어 지원, Hugging Face 배포, 그리고 5.42 평균 WER 리더보드 기록이 핵심 포인트다.
Comments (0)
No comments yet. Be the first to comment!