r/LocalLLaMA: VoiceShelfがAndroidでKokoro TTSを使いEPUB audiobookをoffline生成

Original: I built an Android audiobook reader that runs Kokoro TTS fully offline on-device View original →

Read in other languages: 한국어English
AI Mar 9, 2026 By Insights AI (Reddit) 1 min read Source

r/LocalLLaMAで注目されたもの

r/LocalLLaMA post では、Kokoro speech modelをAndroid上で完全offline実行するaudiobook reader、VoiceShelfが紹介された。2026年3月9日時点でthread scoreは90だった。投稿者によれば、このappはEPUBのtextをcloudへ送らず、device上でそのままstreaming narrationに変える。だから単なるTTS demoというより、mobile inference systemとしての価値が大きい。

投稿にはpipelineも具体的に書かれている。EPUB parsing、sentenceとsegmentのchunking、MisakiによるG2P、Kokoro inference、そしてaudio bufferを作りながら行うstreaming playbackだ。投稿者のSamsung Galaxy Z Fold 7とSnapdragon 8 Eliteでは、audio生成速度は約2.8x real-timeだったという。こうしたproductではreal-time factorが最重要の制約なので、この数字は意味が大きい。Playback速度を下回れば、user体験はnarrationではなくbufferingになってしまうからだ。

実装の細部が重要な理由

同じ投稿は、普段は見えにくいengineering costも明かしている。APKサイズは約1 GBで、これはmodelとAndroid上で品質を落とさず動かすためのcustom libraryを同梱しているためだ。現時点のfeatureはEPUB support、experimentalなPDF support、fully offline inference、screen-off narration、sleep timer、local library managementなど。さらに投稿者はSnapdragon、Tensor、Dimensity系deviceでのthroughputと、長時間利用時のthermal throttling計測を求めている。

これはまさに調べるべきbottleneckだ。今ではflagship phone上でspeech modelを一度動かすこと自体は、それほど面白い問いではない。より難しいのは、それが異なるchipset、battery状態、1時間以上のlistening sessionでも実用に耐えるかどうかだ。つまりcommunityの関心は「localで動くか」から、「人が実際に入れ続けるproductになるか」へ移っている。

このthreadが示すこと

VoiceShelfはmobile向けlocal AIの小さいが重要な目印だ。Offline neural narrationが、実際のcontent、実際のbuffering制約、実際のthermal問題の下で試せる段階に入りつつあることを示している。残る課題はdemoの課題ではなくproductの課題だ。Install size、hardware variability、sustained performanceである。これは健全な前進であり、on-device AIがnoveltyではなく運用現実で評価され始めていることを意味する。

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.