Skip to content
부식 중

Gemma 4의 on-device Agent Skills, Reddit가 주목

Original: Bring state-of-the-art agentic skills to the edge with Gemma 4 View original →

Read in other languages: English日本語
LLM Apr 5, 2026 By Insights AI (Reddit) 1 min read 17 views Source

2026년 4월 5일 기준 Reddit /r/singularity에서는 Google의 Gemma 4 edge 발표를 다룬 글이 꾸준히 반응을 얻고 있었다. 크롤링 시점 기준 이 post는 68 upvotes와 9 comments를 기록했고, 링크는 2026년 4월 2일 공개된 Google Developers Blog 글로 연결된다.

논점은 단순히 “Gemma 4를 더 작은 기기에서 돌린다”는 수준이 아니다. Google은 on-device agent behavior를 두 층으로 묶어 제시했다. 첫 번째는 iOS와 Android용 Google AI Edge Gallery의 Agent Skills다. Google 설명에 따르면 Agent Skills는 multi-step autonomous workflow를 로컬 device 안에서 실행하며, skill 호출을 통해 base model 바깥의 기능을 가져올 수 있다. 예시로는 Wikipedia 같은 knowledge source 조회, speech나 text를 graph와 flashcards로 바꾸는 작업, 그리고 text-to-speech, image generation, music synthesis 같은 다른 model과의 결합이 제시됐다. Google은 Gemma 4 자체에 visual processing과 140개 이상 language 지원도 강조한다.

두 번째 층은 LiteRT-LM runtime이다. Google은 일부 device에서 Gemma 4 E2B를 2-bit와 4-bit weights, memory-mapped per-layer embeddings를 활용해 1.5GB 미만 메모리로 실행할 수 있다고 밝혔다. 또한 LiteRT-LM은 dynamic context를 제공해, 하드웨어가 받쳐주면 Gemma 4의 128K context window를 활용할 수 있다고 설명한다. 여기서 눈에 띄는 수치는 2개의 distinct skills에 걸친 4,000 input tokens를 3초 미만에 처리했다는 benchmark다.

지원 범위도 생각보다 넓다. Google은 Android, iOS, desktop, web뿐 아니라 Raspberry Pi 5와 Qualcomm Dragonwing IQ8 NPU 환경까지 언급했다. 블로그에 따르면 Raspberry Pi 5는 CPU에서 133 prefill, 7.6 decode tokens/s를 기록했고, Dragonwing IQ8은 NPU 가속으로 3,700 prefill, 31 decode tokens/s를 달성했다. 여기에 litert-lm CLI와 Python bindings도 함께 공개됐고, Agent Skills에서 쓰인 tool calling도 그대로 지원한다.

이 글이 커뮤니티에서 주목받는 이유는 분명하다. 이런 수치가 데모 밖에서도 유지된다면, privacy와 latency 측면에서 유리한 edge agent workflow가 훨씬 현실적인 선택지가 될 수 있기 때문이다. 다만 평가 기준은 model weights만이 아니라 Google의 runtime과 tool stack 전체가 되어야 한다. 결국 개발자가 검증해야 할 대상은 Gemma 4 단품이 아니라, Gemma 4를 둘러싼 on-device system 전체다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment