r/LocalLLaMA: VoiceShelfがAndroidでKokoro TTSを使いEPUB audiobookをoffline生成

r/LocalLLaMAで注目されたもの

r/LocalLLaMA post では、Kokoro speech modelをAndroid上で完全offline実行するaudiobook reader、VoiceShelfが紹介された。2026年3月9日時点でthread scoreは90だった。投稿者によれば、このappはEPUBのtextをcloudへ送らず、device上でそのままstreaming narrationに変える。だから単なるTTS demoというより、mobile inference systemとしての価値が大きい。

投稿にはpipelineも具体的に書かれている。EPUB parsing、sentenceとsegmentのchunking、MisakiによるG2P、Kokoro inference、そしてaudio bufferを作りながら行うstreaming playbackだ。投稿者のSamsung Galaxy Z Fold 7とSnapdragon 8 Eliteでは、audio生成速度は約2.8x real-timeだったという。こうしたproductではreal-time factorが最重要の制約なので、この数字は意味が大きい。Playback速度を下回れば、user体験はnarrationではなくbufferingになってしまうからだ。

実装の細部が重要な理由

同じ投稿は、普段は見えにくいengineering costも明かしている。APKサイズは約1 GBで、これはmodelとAndroid上で品質を落とさず動かすためのcustom libraryを同梱しているためだ。現時点のfeatureはEPUB support、experimentalなPDF support、fully offline inference、screen-off narration、sleep timer、local library managementなど。さらに投稿者はSnapdragon、Tensor、Dimensity系deviceでのthroughputと、長時間利用時のthermal throttling計測を求めている。

これはまさに調べるべきbottleneckだ。今ではflagship phone上でspeech modelを一度動かすこと自体は、それほど面白い問いではない。より難しいのは、それが異なるchipset、battery状態、1時間以上のlistening sessionでも実用に耐えるかどうかだ。つまりcommunityの関心は「localで動くか」から、「人が実際に入れ続けるproductになるか」へ移っている。

このthreadが示すこと

VoiceShelfはmobile向けlocal AIの小さいが重要な目印だ。Offline neural narrationが、実際のcontent、実際のbuffering制約、実際のthermal問題の下で試せる段階に入りつつあることを示している。残る課題はdemoの課題ではなくproductの課題だ。Install size、hardware variability、sustained performanceである。これは健全な前進であり、on-device AIがnoveltyではなく運用現実で評価され始めていることを意味する。

r/LocalLLaMA: VoiceShelfがAndroidでKokoro TTSを使いEPUB audiobookをoffline生成

r/LocalLLaMAで注目されたもの

実装の細部が重要な理由

このthreadが示すこと

Related Articles

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ

Apple SpeechAnalyzer、オンデバイス音声認識でWhisper Smallを上回る結果

Cosmos 3 Edge、4B世界モデルでphysical AIをedgeへ寄せる

Related Articles

OpenAIとHugging Faceの評価事故、焦点はcyber benchmarkの隔離設計へ

Apple SpeechAnalyzer、オンデバイス音声認識でWhisper Smallを上回る結果
AI Hacker News Jul 14, 2026 1 min read

Cosmos 3 Edge、4B世界モデルでphysical AIをedgeへ寄せる