Hacker News, 25MB급 Kitten TTS에 주목... CPU 중심 경량 음성 모델 부상

작고 배포 쉬운 음성 모델이 핵심이었다

2026년 3월 19일 Hacker News 스레드에서 Kitten TTS는 크롤링 시점 기준 512점과 172개 댓글을 기록했다. 이 프로젝트는 GPU가 아니라 CPU와 edge device를 먼저 겨냥한 open-source text-to-speech 라이브러리라는 점을 전면에 내세웠다. HN에서 이 글이 반응을 얻은 이유도 여기에 있다. academic benchmark보다 더 중요한 질문, 즉 Raspberry Pi나 저가형 phone, browser, wearable 같은 실제 배포 환경에서 지금 당장 써볼 수 있느냐를 정면으로 건드렸기 때문이다.

Show HN 본문에 따르면 이번 공개에는 80M, 40M, 14M급 모델이 포함되며, 가장 작은 변형은 quantization 후 25MB 미만을 목표로 한다. GitHub README는 v0.8 기준으로 15M, 40M, 80M parameter 모델을 정리하고, 8개의 English voice, speech speed 조절, 숫자와 단위 전처리, 24kHz 출력, ONNX 기반 CPU inference를 핵심 특징으로 제시한다. Python에서는 KittenTTS 클래스로 바로 호출할 수 있어 포장 방식도 비교적 단순하다.

왜 이 릴리스가 의미 있었나

lightweight TTS 자체가 완전히 새로운 개념은 아니다. 하지만 Kitten TTS가 내세우는 포인트는 단순한 demo가 아니라 deployable middle ground다. 많은 음성 시스템은 local quality를 포기하거나, 아니면 cloud API로 round trip을 감수해야 했다. Kitten TTS는 English voice agent, kiosk, accessibility tool, offline assistant 같은 사용처에서 그 사이의 실용 구간이 열리고 있다는 주장을 펼친다. 작은 artifact size와 CPU 우선 설계는 privacy, latency, offline behavior가 중요한 제품에 특히 매력적이다.

물론 한계도 분명하다. README는 프로젝트를 developer preview로 표기하고 있고, 가장 작은 int8 model에 대한 issue 보고도 언급한다. multilingual release 역시 roadmap 단계다. 그래서 더 정확한 해석은 “문제가 끝났다”가 아니라 “이제는 실험할 만한 packaging과 size profile이 나왔다”에 가깝다. 바로 이런 현실적인 edge-AI 이정표가 HN에서 강한 반응을 받기 쉽다.

Hacker News, 25MB급 Kitten TTS에 주목... CPU 중심 경량 음성 모델 부상

작고 배포 쉬운 음성 모델이 핵심이었다

왜 이 릴리스가 의미 있었나

Related Articles

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8

r/singularity, Meituan의 8-step open-source image editing 모델 LongCat-Image-Edit-Turbo 주목

Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목

Comments (0)

Leave a Comment

Related Articles

Hacker News가 주목한 초소형 CPU용 TTS, Kitten TTS v0.8
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.

r/singularity, Meituan의 8-step open-source image editing 모델 LongCat-Image-Edit-Turbo 주목

Fish Audio S2, inline 감정 제어와 빠른 스트리밍을 결합한 오픈 TTS로 주목
2026년 3월 9일 LocalLLaMA에서는 Fish Audio S2가 fine-grained inline control, multilingual 지원, SGLang 기반 streaming stack을 함께 제시한 점이 주목을 받았다.