r/LocalLLaMA: VoiceShelfがAndroidでKokoro TTSを使いEPUB audiobookをoffline生成
Original: I built an Android audiobook reader that runs Kokoro TTS fully offline on-device View original →
r/LocalLLaMAで注目されたもの
r/LocalLLaMA post では、Kokoro speech modelをAndroid上で完全offline実行するaudiobook reader、VoiceShelfが紹介された。2026年3月9日時点でthread scoreは90だった。投稿者によれば、このappはEPUBのtextをcloudへ送らず、device上でそのままstreaming narrationに変える。だから単なるTTS demoというより、mobile inference systemとしての価値が大きい。
投稿にはpipelineも具体的に書かれている。EPUB parsing、sentenceとsegmentのchunking、MisakiによるG2P、Kokoro inference、そしてaudio bufferを作りながら行うstreaming playbackだ。投稿者のSamsung Galaxy Z Fold 7とSnapdragon 8 Eliteでは、audio生成速度は約2.8x real-timeだったという。こうしたproductではreal-time factorが最重要の制約なので、この数字は意味が大きい。Playback速度を下回れば、user体験はnarrationではなくbufferingになってしまうからだ。
実装の細部が重要な理由
同じ投稿は、普段は見えにくいengineering costも明かしている。APKサイズは約1 GBで、これはmodelとAndroid上で品質を落とさず動かすためのcustom libraryを同梱しているためだ。現時点のfeatureはEPUB support、experimentalなPDF support、fully offline inference、screen-off narration、sleep timer、local library managementなど。さらに投稿者はSnapdragon、Tensor、Dimensity系deviceでのthroughputと、長時間利用時のthermal throttling計測を求めている。
これはまさに調べるべきbottleneckだ。今ではflagship phone上でspeech modelを一度動かすこと自体は、それほど面白い問いではない。より難しいのは、それが異なるchipset、battery状態、1時間以上のlistening sessionでも実用に耐えるかどうかだ。つまりcommunityの関心は「localで動くか」から、「人が実際に入れ続けるproductになるか」へ移っている。
このthreadが示すこと
VoiceShelfはmobile向けlocal AIの小さいが重要な目印だ。Offline neural narrationが、実際のcontent、実際のbuffering制約、実際のthermal問題の下で試せる段階に入りつつあることを示している。残る課題はdemoの課題ではなくproductの課題だ。Install size、hardware variability、sustained performanceである。これは健全な前進であり、on-device AIがnoveltyではなく運用現実で評価され始めていることを意味する。
Related Articles
Googleは5月12日「Android Show: I/O Edition」でGemini Intelligenceを発表。Galaxy S26とPixel 10を皮切りに夏から順次配信し、アプリ横断タスク自動化や自然言語ウィジェット生成機能が提供される。
Codexは開発支援から職種別workflowの表面へ広がっている。OpenAIは新pluginに62アプリと110スキルを束ね、Business・Enterprise向けSites previewも始めた。
AIによるAI開発は抽象論から実測指標へ移りつつある。AnthropicはMythos Previewが最適化課題で約52倍、研究判断テストで64%の優位を示したと説明した。