LocalLLaMA 화제: Kitten TTS v0.8, 초경량 온디바이스 TTS 공개
Original: Kitten TTS V0.8 is out: New SOTA Super-tiny TTS Model (Less than 25 MB) View original →
LocalLLaMA에서 주목받은 Kitten TTS v0.8, 온디바이스 음성의 실전성
r/LocalLLaMA의 고반응 스레드가 Kitten TTS v0.8 공개 소식을 확산시키고 있다. 크롤링 시점 기준으로 해당 글은 1천 개를 넘는 업보트와 활발한 댓글을 기록했으며, 유료 클라우드 API 의존 없이 로컬에서 동작하는 TTS 수요가 매우 크다는 점을 다시 보여준다.
게시글은 Apache 2.0 라이선스로 공개된 3개 모델(80M, 40M, 14M)을 소개한다. 작성자는 가장 작은 모델이 25MB 미만이며 CPU에서도 동작 가능하다고 설명한다. 즉, GPU 자원이 부족한 환경에서도 배포 가능한 경량 음성 스택을 목표로 한다는 의미다.
게시글이 강조한 포인트
- Mini 80M, Micro 40M, Nano 14M의 코드/가중치 공개.
- 이번 버전에서 8개 expressive voice 제공(영어 우선 지원).
- 향후 릴리스에서 multilingual 지원 계획 언급.
- 이전 버전 대비 품질 향상 주장(학습 파이프라인 개선, 데이터셋 확대라는 설명 포함).
스레드는 GitHub와 Hugging Face 링크를 함께 제공한다. 이는 재현성과 검증 측면에서 중요하다. 개발자는 구현을 직접 확인하고, 각 모델 크기별 품질-지연시간-자원 사용량을 자신의 장비에서 비교할 수 있다. 단순 데모 영상보다 실무 배포 관점의 판단 근거가 많아진다.
제품 팀 관점의 의미
음성 에이전트, 임베디드 어시스턴트, 오프라인 우선 앱에서는 모델 크기와 CPU 구동 가능성이 실제 출시 속도를 결정한다. 25MB급 모델은 패키징 부담을 낮추고 콜드스타트 비용을 줄이며, 외부 호출이 줄어 개인정보 처리 경로도 단순해질 수 있다. 물론 언어 커버리지, 장문 발화 품질, 디바이스별 처리량 검증은 필수다. 그럼에도 이번 스레드는 오픈 커뮤니티가 "작고 배포 가능한 TTS"를 핵심 축으로 빠르게 이동하고 있음을 보여준다.
출처: Reddit 스레드, GitHub, Hugging Face 모델.
Related Articles
Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.
HN이 이 저장소를 밀어 올린 이유는 또 다른 브라우저 자동화 래퍼라서가 아니다. 작업 도중 모델이 직접 브라우저 도우미 함수를 고쳐가며 진행한다는 발상이 더 크게 먹혔다.
LocalLLaMA가 뜨거웠던 이유는 단순한 벤치마크 숫자 때문만이 아니었다. 공식 수치가 좋았지만, 진짜 반응은 FP8와 GGUF, VRAM 적합성 얘기가 바로 쏟아졌다는 데 있었다. 2026년 4월 25일 크롤링 시점 기준 스레드는 1,688점, 603댓글이었다.
Comments (0)
No comments yet. Be the first to comment!