Hacker NewsでKitten TTSが話題、25MB級のCPU向け軽量音声モデルに注目
Original: Show HN: Three new Kitten TTS models – smallest less than 25MB View original →
小さくて配りやすい音声モデルが主題だった
2026年3月19日、Hacker NewsのスレッドでKitten TTSはクロール時点で512ポイントと172件のコメントを集めた。リンク先のプロジェクトは、GPU前提ではなくCPUとedge deviceでの実用運用を狙うopen-source text-to-speechライブラリとして打ち出されている。Hacker Newsで響いたのもそこだ。academic benchmarkよりも、「Raspberry Pi、低価格phone、browser、wearableで今すぐ試せるか」という実装側の問いに直接答えているからだ。
Show HNの本文によると、今回の公開には80M、40M、14M級のモデルが含まれ、最小版はquantization後に25MB未満を狙っている。GitHubのREADMEはv0.8として15M、40M、80M parameterの各モデルを並べ、8つのEnglish voice、speech speed調整、数値や単位の前処理、24kHz出力、ONNXベースのCPU inferenceを主要機能として説明している。PythonではKittenTTSクラスからすぐ呼び出せるため、導入の形も比較的わかりやすい。
なぜこの投稿が刺さったのか
lightweight TTSそのものは新概念ではない。ただ、Kitten TTSが押し出しているのは派手なdemoではなく、deployable middle groundだ。多くの音声スタックは、local qualityを諦めるか、cloud APIへのround tripを受け入れるかの二択になりやすい。Kitten TTSは、English voice agent、kiosk、accessibility tool、offline assistantのような用途で、その中間に実用帯が開きつつあると主張している。小さなartifact sizeとCPU優先設計は、privacy、latency、offline behaviorが重要な製品では特に魅力的だ。
もちろん限界もある。READMEはこのプロジェクトをdeveloper previewと位置付けており、最小のint8 modelにはissue報告もある。multilingual releaseもまだroadmap段階だ。したがって正確な読み方は「問題が解決した」ではなく、「実験する価値があるpackagingとsize profileが見えてきた」だろう。まさにそうした現実的なedge-AIの節目が、Hacker Newsでは強く反応されやすい。
Related Articles
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
2026年3月9日のLocalLLaMAでは、Fish Audio S2がfine-grained inline control、multilingual対応、SGLangベースのstreaming stackをまとめて提示した点が注目された。
3月13日の Hacker News では、オープンソース文書サイト全体で 39 件の active な Algolia admin key が露出していたという security report が注目を集めた。これらの key は search index の改変や削除、検索結果の汚染、indexed content の閲覧まで可能で、信頼された developer docs の表面を直接危険にさらす。
Comments (0)
No comments yet. Be the first to comment!