Hacker Newsで注目された超小型CPU向けTTS、Kitten TTS v0.8
Original: Show HN: Three new Kitten TTS models – smallest less than 25MB View original →
2026年3月19日のHacker Newsで目立ったもう1つの投稿は、Kitten TTS v0.8のShow HNだった。このスレッドは今回のクロール時点で308 points、104 commentsに達している。リポジトリの説明によれば、Kitten TTSはONNXベースのtext-to-speech libraryで、15M、40M、80M parameterのモデルを用意し、ディスク上ではおよそ25 MBから80 MB、CPUでGPUなしでも動かせることを前面に出している。出力は24 kHzで、built-in voiceも8種類ある。
このプロジェクトが受けた理由は、狙っている課題がはっきりしているからだ。speech toolの多くはcloud依存、GPU前提、あるいは単純なローカル用途には重すぎる。Kitten TTSはそれに対して、小さい配布サイズ、offline実行、シンプルなPython APIを強調している。だからedge deployment、local assistant、軽量desktop appのようなユースケースで特に関心を集めた。
Hacker Newsで出た実務的な論点
- 多くのユーザーはsizeに対する音質を高く評価し、あるコメントでは80M modelがIntel 9700 CPUで約1.5x realtimeで動いたと報告されていた。
- 一方で、数字の読み上げ、単位、voice naturalnessといったedge caseもすぐに試され、より自然なvoiceやJapanese対応を求める声が出た。
- インストール時に大きなdependencyが入る点も指摘された。つまり、"tiny"を名乗るならpackaging体験そのものも重要な評価対象になるということだ。
このスレッドは、open-source TTS市場の評価軸がかなり現実的になっていることも示した。小さくて速いだけでは足りない。ユーザーはvoiceの学習データがどこから来たのか、licenseやprovenanceにどんな保証があるのか、production用途にどこまで耐えられるのかを気にしている。ローカルspeech modelの評価が、便利さだけでなく信頼性まで含む段階に入っているわけだ。
Kitten TTSはまだdeveloper preview扱いなので、今回のHacker Newsの反応は最終評価というより強い初期関心として読むべきだ。それでもこの投稿は、普通のCPUで動き、benchmark demoを超えて実用になりそうなcompact speech modelへの需要が確実にあることを示している。
Related Articles
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
Mistralは Voxtral Realtime と Voxtral Mini Transcribe V2 を公開し、sub-200ms の streaming transcription、13言語対応、realtime model の open weights を打ち出した。あわせて Mistral Studio の audio playground と $0.003/min・$0.006/min の pricing も提示している。
Difyは2026年3月10日に3000万ドルのSeries Pre-Aを発表した。オープンソースコミュニティとenterprise展開を同時に強化しつつ、LLMクレジット拡大やworkflow・権限機能の更新も合わせて打ち出している。
Comments (0)
No comments yet. Be the first to comment!