Hacker NewsでKitten TTSが話題、25MB級のCPU向け軽量音声モデルに注目
Original: Show HN: Three new Kitten TTS models – smallest less than 25MB View original →
小さくて配りやすい音声モデルが主題だった
2026年3月19日、Hacker NewsのスレッドでKitten TTSはクロール時点で512ポイントと172件のコメントを集めた。リンク先のプロジェクトは、GPU前提ではなくCPUとedge deviceでの実用運用を狙うopen-source text-to-speechライブラリとして打ち出されている。Hacker Newsで響いたのもそこだ。academic benchmarkよりも、「Raspberry Pi、低価格phone、browser、wearableで今すぐ試せるか」という実装側の問いに直接答えているからだ。
Show HNの本文によると、今回の公開には80M、40M、14M級のモデルが含まれ、最小版はquantization後に25MB未満を狙っている。GitHubのREADMEはv0.8として15M、40M、80M parameterの各モデルを並べ、8つのEnglish voice、speech speed調整、数値や単位の前処理、24kHz出力、ONNXベースのCPU inferenceを主要機能として説明している。PythonではKittenTTSクラスからすぐ呼び出せるため、導入の形も比較的わかりやすい。
なぜこの投稿が刺さったのか
lightweight TTSそのものは新概念ではない。ただ、Kitten TTSが押し出しているのは派手なdemoではなく、deployable middle groundだ。多くの音声スタックは、local qualityを諦めるか、cloud APIへのround tripを受け入れるかの二択になりやすい。Kitten TTSは、English voice agent、kiosk、accessibility tool、offline assistantのような用途で、その中間に実用帯が開きつつあると主張している。小さなartifact sizeとCPU優先設計は、privacy、latency、offline behaviorが重要な製品では特に魅力的だ。
もちろん限界もある。READMEはこのプロジェクトをdeveloper previewと位置付けており、最小のint8 modelにはissue報告もある。multilingual releaseもまだroadmap段階だ。したがって正確な読み方は「問題が解決した」ではなく、「実験する価値があるpackagingとsize profileが見えてきた」だろう。まさにそうした現実的なedge-AIの節目が、Hacker Newsでは強く反応されやすい。
Related Articles
r/MachineLearningの投稿は、同じ重み・同じONNX export条件でも、Snapdragon 5機種でオンデバイス精度が91.8%から71.2%まで広がったと報告した。
Kitten TTS v0.8は、CPUで動く15Mから80MのONNX音声モデルとしてHacker Newsで注目を集め、実運用性や学習データへの質問も呼び込んだ。
ESP32マイクロコントローラ上でわずか888KB未満で動作するClaw系パーソナルAIアシスタント「zclaw」がGitHubで公開されました。Hacker Newsで161ポイントを獲得し、エッジAIの可能性を示しています。