Hacker NewsでKitten TTSが話題、25MB級のCPU向け軽量音声モデルに注目
Original: Show HN: Three new Kitten TTS models – smallest less than 25MB View original →
小さくて配りやすい音声モデルが主題だった
2026年3月19日、Hacker NewsのスレッドでKitten TTSはクロール時点で512ポイントと172件のコメントを集めた。リンク先のプロジェクトは、GPU前提ではなくCPUとedge deviceでの実用運用を狙うopen-source text-to-speechライブラリとして打ち出されている。Hacker Newsで響いたのもそこだ。academic benchmarkよりも、「Raspberry Pi、低価格phone、browser、wearableで今すぐ試せるか」という実装側の問いに直接答えているからだ。
Show HNの本文によると、今回の公開には80M、40M、14M級のモデルが含まれ、最小版はquantization後に25MB未満を狙っている。GitHubのREADMEはv0.8として15M、40M、80M parameterの各モデルを並べ、8つのEnglish voice、speech speed調整、数値や単位の前処理、24kHz出力、ONNXベースのCPU inferenceを主要機能として説明している。PythonではKittenTTSクラスからすぐ呼び出せるため、導入の形も比較的わかりやすい。
なぜこの投稿が刺さったのか
lightweight TTSそのものは新概念ではない。ただ、Kitten TTSが押し出しているのは派手なdemoではなく、deployable middle groundだ。多くの音声スタックは、local qualityを諦めるか、cloud APIへのround tripを受け入れるかの二択になりやすい。Kitten TTSは、English voice agent、kiosk、accessibility tool、offline assistantのような用途で、その中間に実用帯が開きつつあると主張している。小さなartifact sizeとCPU優先設計は、privacy、latency、offline behaviorが重要な製品では特に魅力的だ。
もちろん限界もある。READMEはこのプロジェクトをdeveloper previewと位置付けており、最小のint8 modelにはissue報告もある。multilingual releaseもまだroadmap段階だ。したがって正確な読み方は「問題が解決した」ではなく、「実験する価値があるpackagingとsize profileが見えてきた」だろう。まさにそうした現実的なedge-AIの節目が、Hacker Newsでは強く反応されやすい。
Related Articles
Kitten TTS v0.8의 Show HN 글은 15M~80M ONNX 모델, 25MB급 배포 크기, CPU 중심 설계로 관심을 모았고, 실사용 품질과 데이터 출처에 대한 질문도 함께 끌어냈다.
LocalLLaMA에서 높은 반응을 얻은 KittenTTS v0.8 게시물은 80M/40M/14M 모델 구성을 공유했고, Apache-2.0 라이선스와 로컬 CPU 중심 배포 가능성을 강조했다.
r/MachineLearning 게시물은 동일한 가중치와 ONNX export를 사용해도 Snapdragon 칩셋별 온디바이스 정확도가 91.8%~71.2%까지 크게 벌어질 수 있다고 보고했다.