LocalLLaMA が注目した PokeClaw、Android 上で Gemma 4 を完全ローカル実行する mobile agent

LocalLLaMAで注目を集めたPokeClawは、非常にシンプルな問いから出発している。Gemma 4はcloudを経由せずにphoneを直接操作できるのか、という問いだ。Reddit投稿とREADMEの答えは「prototypeとしてはすでにできる」に近い。modelが現在のscreenを読み取り、適切なtoolを選び、その結果を見て、taskが終わるまでloopを続ける構造をdevice内で閉じている。

面白いのはtool surfaceである。PokeClawはmodelにtap、swipe、long press、text input、app起動、message送信、screenshot取得、screen情報の読取り、finishといったactionを与える。message向けのauto reply機能もある。実装はLiteRT-LMのnative tool calling上で動くため、remote browserやhosted agent runtimeを往復しなくても制御loopを維持できる。READMEの「Phone → LLM → Phone」という説明が構造を最も簡潔に表している。

READMEは現在の状態を過剰には売り込まない。projectを二日間で作ったopen-source prototypeと何度も説明し、bugやrough edgeが多いと認めている。hardware requirementも明確だ。Android 9+とarm64が必要で、RAMは最低8GB、推奨は12GB以上、初回model downloadは約2.6GB。低価格phoneでCPU-only inferenceを行うとwarmupは約45秒かかるが、Tensor G3/G4やSnapdragon 8 Gen 2/3、Dimensity上位chipではかなり短縮されるという。

それでもLocalLLaMAで反応が大きかった理由は明快だ。PokeClawはagent perfectionを主張しているのではない。2.3B級のon-device modelでも、すでにmobile UIを読み、inputを埋め、message workflowを自動化できることを見せている。しかもAPI keyもmonthly cloud billも不要だ。local AI communityにとっては、chatbot demoからembodied mobile automationへ一段進んだサインと言える。

元のReddit投稿はr/LocalLLaMAにあり、実装の詳細はPokeClaw GitHub repoで確認できる。完成品のconsumer appではないが、Gemma 4のtool-calling stackがdesktopを越えてmobile agentへ広がり始めていることは十分に示している。

LocalLLaMA が注目した PokeClaw、Android 上で Gemma 4 を完全ローカル実行する mobile agent

Related Articles

Gemma 4 12B、encoder-free multimodal設計でローカルAI議論の中心へ

10年前のXeonでGemma 4、焦点はGPUなしよりmemory bandwidth

Gemma 4 QAT、エッジ向けモデルのメモリを1GB目標まで圧縮