Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.
Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.
LocalLLaMA 댓글은 토큰 속도보다 끝까지 굴러가는 결과물에 더 민감했다. 같은 MacBook Pro M5 Max에서 Qwen 3.6 27B는 더 길고 빠르게 썼지만, Gemma 4 31B는 훨씬 적은 토큰으로 게임 로직과 상호작용을 먼저 정리했다.
Google DeepMind의 새 훈련 구조가 중요한 이유는 데이터센터 경계 자체가 최전선 병목이 되고 있기 때문이다. Decoupled DiLoCo는 2-5Gbps 광역 링크 위에서 4개 미국 지역에 걸쳐 12B Gemma 모델을 학습했고, 기존 동기화 방식보다 20배 넘게 빠르면서 평균 정확도는 64.1%로 기준선 64.4%에 거의 붙었다.
LocalLLaMA가 반응한 이유는 단순한 수치 비교가 아니었다. 많은 로컬 추론 사용자가 사실상 상식처럼 받아들이던 규칙을 정면으로 건드렸고, 특히 Gemma 쪽에서 모델별 차이가 크다는 점을 보여 줬기 때문이다. 2026년 4월 25일 크롤링 시점 기준 스레드는 324점, 58댓글이었다.
r/LocalLLaMA에서 올라온 번역 실험담은 benchmark가 아니라 체감 사례지만, local model이 drift와 censorship risk를 피하는 실용적 선택지로 보인다는 커뮤니티 감각을 잘 보여 준다.
Reddit이 크게 반응한 건 또 하나의 거대한 GPU 머신이 아니라, 스마트폰을 Gemma 4 서버로 바꿔버린 실전 해킹이었다. 이 정도가 진짜 우리가 보고 싶은 로컬 AI라는 반응이 나온 이유가 분명했다.
Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.
Google DeepMind는 2026년 4월 9일 X에서 Gemma 4가 출시 첫 주 10M downloads를 넘었고 Gemma family 전체는 500M downloads를 돌파했다고 밝혔다. Google은 Gemma 4를 reasoning과 agentic workflows, 로컬 하드웨어 배치를 겨냥한 open model family로 포지셔닝하고 있다.