LocalLLaMA가 주목한 PokeClaw, Android에서 Gemma 4를 완전 로컬로 돌리는 mobile agent

Original: [PokeClaw] First working app that uses Gemma 4 to autonomously control an Android phone. Fully on-device, no cloud. View original →

Read in other languages: English日本語
LLM Apr 6, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA에서 주목받은 PokeClaw는 아주 단순한 질문에서 출발한다. Gemma 4가 cloud를 거치지 않고 스마트폰을 직접 조작할 수 있느냐는 것이다. Reddit 글과 README의 답은 “prototype 수준에서는 이미 가능하다”에 가깝다. model이 현재 screen을 해석하고, 적절한 tool을 고르고, 실행 결과를 다시 보고, task가 끝날 때까지 loop를 이어 가는 구조를 Android 기기 안에서 닫아 버렸다.

가장 흥미로운 부분은 tool surface다. PokeClaw는 model에 tap, swipe, long press, text input, app 열기, message 전송, screenshot 촬영, screen 정보 읽기, finish 같은 action을 준다. auto reply 기능도 들어 있다. 구현은 LiteRT-LM의 native tool calling 위에서 돌아가기 때문에, remote browser나 hosted agent runtime으로 왕복하지 않아도 된다. “Phone → LLM → Phone”이라는 README의 표현이 이 구조를 가장 간단하게 요약한다.

README는 현재 상태를 과장하지도 않는다. project를 이틀짜리 open-source prototype이라고 반복해서 설명하고, edge case와 bug가 많다고 인정한다. hardware requirement도 분명하다. Android 9+와 arm64가 필요하고, RAM은 최소 8GB, 권장은 12GB+, 첫 model download는 약 2.6GB다. 저가형 phone에서 CPU-only inference를 돌리면 warmup이 45초 정도 걸릴 수 있지만, Tensor G3/G4나 Snapdragon 8 Gen 2/3 급에서는 훨씬 빨라진다고 적고 있다.

그럼에도 LocalLLaMA에서 반응이 나온 이유는 분명하다. PokeClaw는 agent perfection을 주장하는 것이 아니라, 2.3B급 on-device model이 이제 실제 mobile UI를 읽고, input을 채우고, message workflow를 자동화할 만큼은 도달했다는 사실을 보여 준다. API key도, 월간 cloud bill도 없이 말이다. local AI community 입장에서는 chatbot demo에서 embodied mobile automation으로 한 단계 넘어가는 신호다.

원문 토론은 r/LocalLLaMA에 있고, 구현 세부사항은 PokeClaw GitHub repo에서 볼 수 있다. 아직 완성형 product는 아니지만, Gemma 4의 tool-calling stack이 desktop을 넘어 mobile agent 쪽으로도 빠르게 확장되고 있다는 점은 분명하게 보여 준다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.