LocalLLaMA 화제: Kitten TTS v0.8, 초경량 온디바이스 TTS 공개
Original: Kitten TTS V0.8 is out: New SOTA Super-tiny TTS Model (Less than 25 MB) View original →
LocalLLaMA에서 주목받은 Kitten TTS v0.8, 온디바이스 음성의 실전성
r/LocalLLaMA의 고반응 스레드가 Kitten TTS v0.8 공개 소식을 확산시키고 있다. 크롤링 시점 기준으로 해당 글은 1천 개를 넘는 업보트와 활발한 댓글을 기록했으며, 유료 클라우드 API 의존 없이 로컬에서 동작하는 TTS 수요가 매우 크다는 점을 다시 보여준다.
게시글은 Apache 2.0 라이선스로 공개된 3개 모델(80M, 40M, 14M)을 소개한다. 작성자는 가장 작은 모델이 25MB 미만이며 CPU에서도 동작 가능하다고 설명한다. 즉, GPU 자원이 부족한 환경에서도 배포 가능한 경량 음성 스택을 목표로 한다는 의미다.
게시글이 강조한 포인트
- Mini 80M, Micro 40M, Nano 14M의 코드/가중치 공개.
- 이번 버전에서 8개 expressive voice 제공(영어 우선 지원).
- 향후 릴리스에서 multilingual 지원 계획 언급.
- 이전 버전 대비 품질 향상 주장(학습 파이프라인 개선, 데이터셋 확대라는 설명 포함).
스레드는 GitHub와 Hugging Face 링크를 함께 제공한다. 이는 재현성과 검증 측면에서 중요하다. 개발자는 구현을 직접 확인하고, 각 모델 크기별 품질-지연시간-자원 사용량을 자신의 장비에서 비교할 수 있다. 단순 데모 영상보다 실무 배포 관점의 판단 근거가 많아진다.
제품 팀 관점의 의미
음성 에이전트, 임베디드 어시스턴트, 오프라인 우선 앱에서는 모델 크기와 CPU 구동 가능성이 실제 출시 속도를 결정한다. 25MB급 모델은 패키징 부담을 낮추고 콜드스타트 비용을 줄이며, 외부 호출이 줄어 개인정보 처리 경로도 단순해질 수 있다. 물론 언어 커버리지, 장문 발화 품질, 디바이스별 처리량 검증은 필수다. 그럼에도 이번 스레드는 오픈 커뮤니티가 "작고 배포 가능한 TTS"를 핵심 축으로 빠르게 이동하고 있음을 보여준다.
출처: Reddit 스레드, GitHub, Hugging Face 모델.
Related Articles
r/LocalLLaMA의 고득점 글은 llama-swap을 이용해 로컬 LLM 다중 모델 운영을 단순화한 경험을 공유한다. 단일 실행 파일, YAML 설정, systemd 자동 시작, 모델별 파라미터 필터링이 핵심 포인트로 제시됐다.
r/LocalLLaMA에서 화제가 된 karpathy/autoresearch는 에이전트가 하나의 training file을 수정하고 5분 실험을 반복하며 val_bpb를 낮추는 방향으로 탐색하는 소형 open-source 연구 루프다.
Andrej Karpathy가 축소형 nanochat training loop를 AI agent가 overnight로 반복 실험할 수 있게 하는 autoresearch repo를 공개했다. 고정 5분 실험, Git branch, validation loss 기반 선택을 묶어 agent 연구를 closed-loop workflow로 바꾸려는 시도다.
Comments (0)
No comments yet. Be the first to comment!