HN은 로컬 추론, API 키 없는 흐름, 프라이버시 강화라는 장점을 바로 알아봤다. 동시에 브라우저 안 AI가 실제 제품이 되려면 저장공간과 하드웨어 요구사항부터 넘겨야 한다는 반응도 바로 붙었다.
#on-device
RSS FeedLocalLLaMA에서 반응이 컸던 포인트는 "새 모델이 세다"보다 "제대로 켜야 보인다"는 실전 팁이었다. 작성자는 M5 Max 128GB 환경에서 Qwen3.6을 8bit로 돌리며 Opus와 Codex에 맡기던 일부 작업을 처리했다고 했고, 핵심 설정으로 preserve_thinking을 짚었다.
Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.
Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.
Apfel을 다룬 Show HN 글은 이번 2026년 4월 4일 크롤링에서 513 points와 117 comments를 기록했고, Apple의 on-device foundation model을 CLI, chat interface, OpenAI-compatible local server로 바꾸는 Swift 도구에 관심이 모였다.
LocalLLaMA 인기 스레드에서 Kitten TTS v0.8이 주목받았다. 80M/40M/14M 오픈 모델과 CPU 구동, 25MB 미만 경량 모델이 핵심 포인트로 제시됐다.