Show HN에 올라온 Parlor는 브라우저의 음성·카메라 입력을 Gemma 4 E2B와 Kokoro로 처리해 로컬에서 바로 음성 응답을 돌려준다. Apple M3 Pro 기준 2.5~3.0초 수준의 end-to-end latency를 공개한 점이 눈에 띈다.
#gemma
RSS FeedGoogle DeepMind의 2026년 4월 2일 X 게시물은 Gemma 4를 reasoning과 agentic workflows를 겨냥한 새 open model family로 소개했다. Google은 E2B, E4B, 26B MoE, 31B Dense 구성을 공개하고 function calling, structured JSON, 긴 context window를 핵심 차별점으로 제시했다.
LocalLLaMA에 올라온 PokeClaw는 LiteRT-LM 기반으로 Gemma 4를 Android 기기에서 로컬 실행하고, tap·swipe·text input·app 실행·message 전송·auto reply 등을 cloud 없이 처리하는 open-source mobile agent prototype다.
Show HN 스레드에서 주목받은 Gemma Gem은 Chrome extension 안에서 Gemma 4를 WebGPU로 직접 실행하고, page 읽기·click·type·scroll·screenshot·JavaScript 실행까지 로컬에서 처리하는 on-device browser agent다.
LocalLLaMA의 한 기술 글은 Gemma 4 E2B/E4B의 효율성이 Per-Layer Embeddings에서 나온다고 설명한다. 핵심 주장은 이 파라미터들이 항상 활성화되는 연산 블록이 아니라 큰 token lookup table처럼 동작하기 때문에 VRAM 부담과 추론 비용의 균형이 달라진다는 것이다.
Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.
LocalLLaMA 스레드가 Gemma 4 31B의 예상 밖 FoodTruck Bench 성과를 끌어올렸다. 토론은 곧 장기 계획 능력과 benchmark 신뢰성 문제로 이어졌다.
r/artificial의 한 게시물은 Google DeepMind의 Gemma 4 공개를 가리켰고, 이 모델은 Apache 2.0 아래에서 advanced reasoning과 agentic feature를 묶어 제공한다. Google은 네 가지 크기의 family, larger model 기준 최대 256K context, 그리고 Hugging Face부터 llama.cpp까지 이어지는 day-one ecosystem support를 강조했다.
r/LocalLLaMA는 Gemma 4 출시를 이번 크롤링에서 가장 강한 커뮤니티 신호 중 하나로 끌어올렸고, Google은 edge부터 workstation까지 아우르는 open model 계열을 제시했다.
Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.
Google DeepMind가 Gemma Scope 2를 공개하며 Gemma 3(270M~27B) 전 모델에 대한 interpretability 연구 범위를 확대했다. 회사는 약 110 Petabytes 데이터 저장과 1 trillion+ 파라미터 학습이 투입된 대규모 오픈소스 릴리스라고 밝혔다.