Gemma 4のon-device Agent Skills展開にRedditが注目

2026年4月5日時点でRedditの/r/singularityでは、GoogleのGemma 4 edge展開を扱った投稿が着実に注目を集めていた。クロール時点でこのpostは68 upvotes、9 commentsで、リンク先は2026年4月2日に公開されたGoogle Developers Blogの記事だった。

論点は単に「Gemma 4が小さい端末で動く」という話ではない。Googleはon-device agent behaviorを二層構造で見せている。第一の層は、iOSとAndroid向けのGoogle AI Edge Galleryに追加されたAgent Skillsだ。Googleの説明では、Agent Skillsはmulti-step autonomous workflowを完全にon-deviceで動かし、skill呼び出しによってbase modelの外にある機能へ到達できる。例としては、Wikipediaのようなknowledge sourceへの問い合わせ、speechやtextからgraphやflashcardsを生成する処理、さらにtext-to-speech、image generation、music synthesisなど他のmodelとの連携が挙げられている。GoogleはGemma 4自体について、visual processingと140以上のlanguagesへの対応もアピールしている。

第二の層はLiteRT-LM runtimeだ。Googleによれば、一部のdeviceではGemma 4 E2Bを2-bit/4-bit weightsとmemory-mapped per-layer embeddingsによって1.5GB未満のmemoryで動かせるという。さらにLiteRT-LMはdynamic contextを提供し、ハードウェアが許せばGemma 4の128K context windowを活用できる。ここで最も重要なのは公開benchmarkだ。Googleは、2つのdistinct skillsにまたがる4,000 input tokensを3秒未満で処理できるとしている。

対応ハードウェアの幅も広い。GoogleはAndroid、iOS、desktop、webに加え、Raspberry Pi 5とQualcomm Dragonwing IQ8 NPUも挙げている。ブログでは、Raspberry Pi 5がCPUで133 prefillと7.6 decode tokens/s、Dragonwing IQ8がNPU加速で3,700 prefillと31 decode tokens/sに達したと説明されている。あわせてlitert-lm CLIとPython bindingsも公開され、Agent Skillsで使われたtool callingもサポートされた。

この話題がコミュニティで注目される理由ははっきりしている。もしこれらの数字がデモ以外でも再現できるなら、privacyとlatencyに優れたedge agent workflowがかなり現実的になるからだ。ただし、評価対象はmodel weights単体ではない。実際に検証すべきなのは、Gemma 4を包むruntime、tool integration、device supportを含めたon-device system全体だ。

Gemma 4のon-device Agent Skills展開にRedditが注目

Related Articles

Google、Gemma 4 で on-device agentic workflow を拡張

Google、Gemma 4 を公開… Apache 2.0 license と最大 256K context を提供

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化

Comments (0)

Leave a Comment

Related Articles

Google、Gemma 4 で on-device agentic workflow を拡張
LLM Apr 13, 2026 1 min read

Google、Gemma 4 を公開… Apache 2.0 license と最大 256K context を提供
LLM X/Twitter Apr 2, 2026 1 min read

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化