LocalLLaMA が注目した PokeClaw、Android 上で Gemma 4 を完全ローカル実行する mobile agent
Original: [PokeClaw] First working app that uses Gemma 4 to autonomously control an Android phone. Fully on-device, no cloud. View original →
LocalLLaMAで注目を集めたPokeClawは、非常にシンプルな問いから出発している。Gemma 4はcloudを経由せずにphoneを直接操作できるのか、という問いだ。Reddit投稿とREADMEの答えは「prototypeとしてはすでにできる」に近い。modelが現在のscreenを読み取り、適切なtoolを選び、その結果を見て、taskが終わるまでloopを続ける構造をdevice内で閉じている。
面白いのはtool surfaceである。PokeClawはmodelにtap、swipe、long press、text input、app起動、message送信、screenshot取得、screen情報の読取り、finishといったactionを与える。message向けのauto reply機能もある。実装はLiteRT-LMのnative tool calling上で動くため、remote browserやhosted agent runtimeを往復しなくても制御loopを維持できる。READMEの「Phone → LLM → Phone」という説明が構造を最も簡潔に表している。
READMEは現在の状態を過剰には売り込まない。projectを二日間で作ったopen-source prototypeと何度も説明し、bugやrough edgeが多いと認めている。hardware requirementも明確だ。Android 9+とarm64が必要で、RAMは最低8GB、推奨は12GB以上、初回model downloadは約2.6GB。低価格phoneでCPU-only inferenceを行うとwarmupは約45秒かかるが、Tensor G3/G4やSnapdragon 8 Gen 2/3、Dimensity上位chipではかなり短縮されるという。
それでもLocalLLaMAで反応が大きかった理由は明快だ。PokeClawはagent perfectionを主張しているのではない。2.3B級のon-device modelでも、すでにmobile UIを読み、inputを埋め、message workflowを自動化できることを見せている。しかもAPI keyもmonthly cloud billも不要だ。local AI communityにとっては、chatbot demoからembodied mobile automationへ一段進んだサインと言える。
元のReddit投稿はr/LocalLLaMAにあり、実装の詳細はPokeClaw GitHub repoで確認できる。完成品のconsumer appではないが、Gemma 4のtool-calling stackがdesktopを越えてmobile agentへ広がり始めていることは十分に示している。
Related Articles
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。
Show HN で取り上げられた Gemma Gem は、Chrome extension の中で Gemma 4 を WebGPU でローカル実行し、page 読み取り、click、type、scroll、screenshot、JavaScript 実行までを client 側で完結させる on-device browser agent だ。
LocalLLaMA の技術解説は、Gemma 4 E2B/E4B の効率が Per-Layer Embeddings にあると説明する。重要なのは、それらの多くのパラメータが常時重い計算を行う層ではなく、大きな token lookup table のように振る舞うため、推論時のコスト感覚が変わるという点だ。
Comments (0)
No comments yet. Be the first to comment!