r/LocalLLaMA: VoiceShelf, Android에서 Kokoro TTS로 EPUB audiobook를 offline 처리

r/LocalLLaMA에서 눈에 띈 프로젝트

r/LocalLLaMA post는 Kokoro speech model을 Android에서 완전히 offline으로 실행하는 audiobook reader, VoiceShelf를 소개했다. 2026년 3월 9일 기준 thread score는 90이었다. 작성자에 따르면 이 app은 EPUB text를 cloud로 보내지 않고 device 안에서 바로 streaming narration으로 바꾼다. 그래서 단순한 TTS demo라기보다 mobile inference system으로 보는 편이 더 정확하다.

게시글은 pipeline도 구체적으로 적고 있다. EPUB parsing, sentence와 segment chunking, Misaki 기반 G2P, Kokoro inference, 그리고 audio buffer를 쌓아 가며 처리하는 streaming playback이다. 작성자의 Samsung Galaxy Z Fold 7과 Snapdragon 8 Elite 환경에서는 audio 생성 속도가 약 2.8x real-time에 도달했다고 한다. 이런 product에서 real-time factor는 핵심 제약이기 때문에 이 수치는 중요하다. 생성 속도가 playback보다 느리면 사용자 경험은 narration이 아니라 buffering으로 바뀌기 때문이다. 특히 book content를 외부 service로 보내지 않는다는 점은 privacy와 latency 측면 모두에서 분명한 장점이다.

구현 세부가 중요한 이유

같은 post는 평소 잘 드러나지 않는 engineering cost도 공개한다. APK 크기는 약 1 GB인데, 이는 model과 Android에서 품질 저하 없이 실행하기 위한 custom library를 함께 포함하기 때문이다. 현재 feature는 EPUB support, experimental PDF support, fully offline inference, screen-off narration, sleep timer, local library management 등이다. 작성자는 Snapdragon, Tensor, Dimensity 계열 device에서 throughput과 1시간 이상 사용 시 thermal throttling을 확인해 줄 tester도 찾고 있다.

이것이 정확히 봐야 할 bottleneck이다. 이제 flagship phone에서 speech model을 한 번 돌리는 것 자체는 더 이상 가장 흥미로운 질문이 아니다. 더 어려운 질문은 서로 다른 chipset, battery 상태, 긴 listening session에서도 실제로 쓸 만한가이다. 즉 community의 관심이 "local에서 돌아가느냐"에서 "사람들이 계속 설치해 둘 product가 되느냐"로 이동하고 있다는 뜻이다.

이 thread가 보여 주는 방향

VoiceShelf는 mobile local AI의 작지만 중요한 이정표다. Offline neural narration이 실제 content, 실제 buffering 제약, 실제 thermal 문제 아래에서 시험될 수 있는 단계에 들어가고 있음을 보여 준다. 남은 문제는 demo의 문제가 아니라 product의 문제다. Install size, hardware variability, sustained performance가 그것이다. 이는 on-device AI가 novelty가 아니라 운영 현실로 평가되기 시작했다는 점에서 건강한 진전이다.

r/LocalLLaMA: VoiceShelf, Android에서 Kokoro TTS로 EPUB audiobook를 offline 처리

r/LocalLLaMA에서 눈에 띈 프로젝트

구현 세부가 중요한 이유

이 thread가 보여 주는 방향

Related Articles

구글 '제미나이 인텔리전스', 안드로이드 전면 통합 — 앱 간 자동화·AI 위젯·램블러 탑재

NeurIPS desk rejection 논란, AI detector를 심사 근거로 쓸 수 있나

LLM 해킹 실험에 $1,500, 성능보다 더 드러난 guardrail과 harness 차이

Related Articles

구글 '제미나이 인텔리전스', 안드로이드 전면 통합 — 앱 간 자동화·AI 위젯·램블러 탑재
AI May 15, 2026 1 min read

NeurIPS desk rejection 논란, AI detector를 심사 근거로 쓸 수 있나
AI Reddit Jun 4, 2026 1 min read

LLM 해킹 실험에 $1,500, 성능보다 더 드러난 guardrail과 harness 차이
AI Hacker News Jun 4, 2026 1 min read