Gemma 4의 on-device Agent Skills, Reddit가 주목
Original: Bring state-of-the-art agentic skills to the edge with Gemma 4 View original →
2026년 4월 5일 기준 Reddit /r/singularity에서는 Google의 Gemma 4 edge 발표를 다룬 글이 꾸준히 반응을 얻고 있었다. 크롤링 시점 기준 이 post는 68 upvotes와 9 comments를 기록했고, 링크는 2026년 4월 2일 공개된 Google Developers Blog 글로 연결된다.
논점은 단순히 “Gemma 4를 더 작은 기기에서 돌린다”는 수준이 아니다. Google은 on-device agent behavior를 두 층으로 묶어 제시했다. 첫 번째는 iOS와 Android용 Google AI Edge Gallery의 Agent Skills다. Google 설명에 따르면 Agent Skills는 multi-step autonomous workflow를 로컬 device 안에서 실행하며, skill 호출을 통해 base model 바깥의 기능을 가져올 수 있다. 예시로는 Wikipedia 같은 knowledge source 조회, speech나 text를 graph와 flashcards로 바꾸는 작업, 그리고 text-to-speech, image generation, music synthesis 같은 다른 model과의 결합이 제시됐다. Google은 Gemma 4 자체에 visual processing과 140개 이상 language 지원도 강조한다.
두 번째 층은 LiteRT-LM runtime이다. Google은 일부 device에서 Gemma 4 E2B를 2-bit와 4-bit weights, memory-mapped per-layer embeddings를 활용해 1.5GB 미만 메모리로 실행할 수 있다고 밝혔다. 또한 LiteRT-LM은 dynamic context를 제공해, 하드웨어가 받쳐주면 Gemma 4의 128K context window를 활용할 수 있다고 설명한다. 여기서 눈에 띄는 수치는 2개의 distinct skills에 걸친 4,000 input tokens를 3초 미만에 처리했다는 benchmark다.
지원 범위도 생각보다 넓다. Google은 Android, iOS, desktop, web뿐 아니라 Raspberry Pi 5와 Qualcomm Dragonwing IQ8 NPU 환경까지 언급했다. 블로그에 따르면 Raspberry Pi 5는 CPU에서 133 prefill, 7.6 decode tokens/s를 기록했고, Dragonwing IQ8은 NPU 가속으로 3,700 prefill, 31 decode tokens/s를 달성했다. 여기에 litert-lm CLI와 Python bindings도 함께 공개됐고, Agent Skills에서 쓰인 tool calling도 그대로 지원한다.
이 글이 커뮤니티에서 주목받는 이유는 분명하다. 이런 수치가 데모 밖에서도 유지된다면, privacy와 latency 측면에서 유리한 edge agent workflow가 훨씬 현실적인 선택지가 될 수 있기 때문이다. 다만 평가 기준은 model weights만이 아니라 Google의 runtime과 tool stack 전체가 되어야 한다. 결국 개발자가 검증해야 할 대상은 Gemma 4 단품이 아니라, Gemma 4를 둘러싼 on-device system 전체다.
Related Articles
LocalLLaMA 스레드가 Gemma 4 31B의 예상 밖 FoodTruck Bench 성과를 끌어올렸다. 토론은 곧 장기 계획 능력과 benchmark 신뢰성 문제로 이어졌다.
Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.
r/artificial의 한 게시물은 Google DeepMind의 Gemma 4 공개를 가리켰고, 이 모델은 Apache 2.0 아래에서 advanced reasoning과 agentic feature를 묶어 제공한다. Google은 네 가지 크기의 family, larger model 기준 최대 256K context, 그리고 Hugging Face부터 llama.cpp까지 이어지는 day-one ecosystem support를 강조했다.
Comments (0)
No comments yet. Be the first to comment!