Gemma 4のon-device Agent Skills展開にRedditが注目
Original: Bring state-of-the-art agentic skills to the edge with Gemma 4 View original →
2026年4月5日時点でRedditの/r/singularityでは、GoogleのGemma 4 edge展開を扱った投稿が着実に注目を集めていた。クロール時点でこのpostは68 upvotes、9 commentsで、リンク先は2026年4月2日に公開されたGoogle Developers Blogの記事だった。
論点は単に「Gemma 4が小さい端末で動く」という話ではない。Googleはon-device agent behaviorを二層構造で見せている。第一の層は、iOSとAndroid向けのGoogle AI Edge Galleryに追加されたAgent Skillsだ。Googleの説明では、Agent Skillsはmulti-step autonomous workflowを完全にon-deviceで動かし、skill呼び出しによってbase modelの外にある機能へ到達できる。例としては、Wikipediaのようなknowledge sourceへの問い合わせ、speechやtextからgraphやflashcardsを生成する処理、さらにtext-to-speech、image generation、music synthesisなど他のmodelとの連携が挙げられている。GoogleはGemma 4自体について、visual processingと140以上のlanguagesへの対応もアピールしている。
第二の層はLiteRT-LM runtimeだ。Googleによれば、一部のdeviceではGemma 4 E2Bを2-bit/4-bit weightsとmemory-mapped per-layer embeddingsによって1.5GB未満のmemoryで動かせるという。さらにLiteRT-LMはdynamic contextを提供し、ハードウェアが許せばGemma 4の128K context windowを活用できる。ここで最も重要なのは公開benchmarkだ。Googleは、2つのdistinct skillsにまたがる4,000 input tokensを3秒未満で処理できるとしている。
対応ハードウェアの幅も広い。GoogleはAndroid、iOS、desktop、webに加え、Raspberry Pi 5とQualcomm Dragonwing IQ8 NPUも挙げている。ブログでは、Raspberry Pi 5がCPUで133 prefillと7.6 decode tokens/s、Dragonwing IQ8がNPU加速で3,700 prefillと31 decode tokens/sに達したと説明されている。あわせてlitert-lm CLIとPython bindingsも公開され、Agent Skillsで使われたtool callingもサポートされた。
この話題がコミュニティで注目される理由ははっきりしている。もしこれらの数字がデモ以外でも再現できるなら、privacyとlatencyに優れたedge agent workflowがかなり現実的になるからだ。ただし、評価対象はmodel weights単体ではない。実際に検証すべきなのは、Gemma 4を包むruntime、tool integration、device supportを含めたon-device system全体だ。
Related Articles
Googleは2026年4月2日、Gemma 4を自社で最も強力なopen model familyだと発表し、Gemini 3と同じ技術基盤から構築されたと説明した。GoogleはE2B、E4B、26B MoE、31B Denseを用意し、function-calling、structured JSON output、最大256K context、Apache 2.0 licenseを提供するとしている。
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。
Hacker Newsに投稿されたPrism MLの1-Bit Bonsaiは、1.15GBの8B modelからiPhone級の1.7B modelまでを掲げ、1-bit weightでedge inference economicsを作り替えようとしている。焦点はparameter countではなく、intelligence densityとhardware fitにある。
Comments (0)
No comments yet. Be the first to comment!