#gemma

LLM Hacker News Jul 16, 2026 1 min read

13년 된 Xeon에서 Gemma 4 26B, GPU 없이 5 tok/s

HN의 논점은 “느리지만 된다”가 아니라 비용과 제어권이었다. 오래된 dual Xeon E5-2690 v2가 ik_llama.cpp 패치로 Gemma 4 26B-A4B를 CPU-only로 돌리며 local inference의 현실선을 다시 그었다.

#gemma #cpu-inference #llama-cpp

LLM Hacker News Jun 16, 2026 1 min read

로컬 모델, 이제 코딩 에이전트의 보조 엔진으로 충분한가

HN의 관심은 “로컬 LLM이 프런티어 모델을 대체했나”보다 “어떤 작업부터 로컬로 내려올 수 있나”에 모였다. Gemma 4와 Qwen 계열을 둘러싼 체감 성능, 비용, 프라이버시 논의가 한꺼번에 붙었다.

#local-llm #agentic-coding #gemma

AI Jun 16, 2026 1 min read

궤도 위 VLM 첫 탐색, 위성 데이터 병목을 우주에서 줄이는 길

AI가 위성 사진을 지상으로 내려보낸 뒤 분석하는 순서를 뒤집기 시작했다. YAM-9 위성에서 Gemma 3 기반 VLM이 자연어 질의에 맞춰 관심 지역을 직접 찾은 첫 보고 사례가 나왔다.

#space-ai #vlm #gemma

LLM X/Twitter Jun 16, 2026 1 min read

OpenRouter 무료 용량 확대, gpt-oss-20b와 Gemma 4 26B 추가

OpenRouter가 Darkbloom을 통해 gpt-oss-20b와 Gemma 4 26B 무료 용량을 추가했다. 두 모델은 각각 21B·3.6B 활성 파라미터, 26B급·256K 문맥 같은 비용 대비 실험 포인트를 갖는다.

#openrouter #gpt-oss #gemma

LLM Jun 12, 2026 1 min read

DiffusionGemma, 26B open model이 토큰 병목을 4배로 압축

Google DeepMind가 26B MoE open model DiffusionGemma를 공개했다. 256-token 블록을 병렬로 다듬는 text diffusion 방식으로 전용 GPU에서 최대 4x 빠른 생성을 노린다.

#google #deepmind #gemma

LLM X/Twitter Jun 7, 2026 1 min read

Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.

#google #gemma #qat

LLM Hacker News Jun 4, 2026 1 min read

Gemma 4 12B, encoder 없는 multimodal 구조에 모인 관심

댓글의 관심은 “encoder-free”라는 표현이 실제 아키텍처에서 무엇을 뜻하는지에 모였다.

#gemma #multimodal #open-weights

LLM X/Twitter Jun 4, 2026 1 min read

Gemma 4 12B, 별도 인코더 없이 노트북용 멀티모달 추론으로 Apache 2.0 공개

로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.

#gemma #google #open-models

LLM Hacker News Jun 2, 2026 1 min read

10년 된 Xeon으로 Gemma 4 구동, local AI의 병목을 다시 묻는 글

711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.

#local-ai #gemma #cpu-inference

LLM Reddit May 6, 2026 1 min read

Google, Gemma 4에 MTP 드래프터 출시 — 추론 속도 최대 3배 향상

Google이 Gemma 4 모델군을 위한 Multi-Token Prediction(MTP) 드래프터를 공개했다. 추측적 디코딩 아키텍처를 통해 출력 품질 저하 없이 추론 속도를 최대 3배 높인다.

#gemma #google #mtp

LLM Reddit May 1, 2026 1 min read

Qwen 3.6 vs Gemma 4, Pac-Man 한 판에서 갈린 local LLM 평가축

LocalLLaMA 댓글은 토큰 속도보다 끝까지 굴러가는 결과물에 더 민감했다. 같은 MacBook Pro M5 Max에서 Qwen 3.6 27B는 더 길고 빠르게 썼지만, Gemma 4 31B는 훨씬 적은 토큰으로 게임 로직과 상호작용을 먼저 정리했다.

#qwen #gemma #local-llm

AI X/Twitter Apr 25, 2026 1 min read

DeepMind 4개 지역 12B 분산 훈련, 동기식 병목을 20배 속도로 돌파

Google DeepMind의 새 훈련 구조가 중요한 이유는 데이터센터 경계 자체가 최전선 병목이 되고 있기 때문이다. Decoupled DiLoCo는 2-5Gbps 광역 링크 위에서 4개 미국 지역에 걸쳐 12B Gemma 모델을 학습했고, 기존 동기화 방식보다 20배 넘게 빠르면서 평균 정확도는 64.1%로 기준선 64.4%에 거의 붙었다.

#google-deepmind #gemma #distributed-training