Hacker NewsでKitten TTSが話題、25MB級のCPU向け軽量音声モデルに注目

小さくて配りやすい音声モデルが主題だった

2026年3月19日、Hacker NewsのスレッドでKitten TTSはクロール時点で512ポイントと172件のコメントを集めた。リンク先のプロジェクトは、GPU前提ではなくCPUとedge deviceでの実用運用を狙うopen-source text-to-speechライブラリとして打ち出されている。Hacker Newsで響いたのもそこだ。academic benchmarkよりも、「Raspberry Pi、低価格phone、browser、wearableで今すぐ試せるか」という実装側の問いに直接答えているからだ。

Show HNの本文によると、今回の公開には80M、40M、14M級のモデルが含まれ、最小版はquantization後に25MB未満を狙っている。GitHubのREADMEはv0.8として15M、40M、80M parameterの各モデルを並べ、8つのEnglish voice、speech speed調整、数値や単位の前処理、24kHz出力、ONNXベースのCPU inferenceを主要機能として説明している。PythonではKittenTTSクラスからすぐ呼び出せるため、導入の形も比較的わかりやすい。

なぜこの投稿が刺さったのか

lightweight TTSそのものは新概念ではない。ただ、Kitten TTSが押し出しているのは派手なdemoではなく、deployable middle groundだ。多くの音声スタックは、local qualityを諦めるか、cloud APIへのround tripを受け入れるかの二択になりやすい。Kitten TTSは、English voice agent、kiosk、accessibility tool、offline assistantのような用途で、その中間に実用帯が開きつつあると主張している。小さなartifact sizeとCPU優先設計は、privacy、latency、offline behaviorが重要な製品では特に魅力的だ。

もちろん限界もある。READMEはこのプロジェクトをdeveloper previewと位置付けており、最小のint8 modelにはissue報告もある。multilingual releaseもまだroadmap段階だ。したがって正確な読み方は「問題が解決した」ではなく、「実験する価値があるpackagingとsize profileが見えてきた」だろう。まさにそうした現実的なedge-AIの節目が、Hacker Newsでは強く反応されやすい。

Hacker NewsでKitten TTSが話題、25MB級のCPU向け軽量音声モデルに注目

小さくて配りやすい音声モデルが主題だった

なぜこの投稿が刺さったのか

Related Articles

Cosmos 3 Edge、4B世界モデルでphysical AIをedgeへ寄せる

Baidu Unlimited-OCR、500M有効パラメータで40ページ文書を一括読解

Reddit ML報告: 同一INT8 ONNXモデルでもSnapdragon世代で精度が大きく乖離