Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
LocalLLaMA는 1.58-bit model의 가능성에 반응했지만, thread는 곧 어려운 질문으로 향했다. 비교 대상이 quantized Qwen peers가 아니라 full-precision baseline이면 공정한가.
우주 데이터센터는 아직 미래형 구호에 가깝지만, 우주 inference는 벌써 사업 냄새가 난다. Kepler의 cluster는 10개 위성에 Nvidia Orin 40개를 얹고 고객 18곳을 확보해, space compute를 pitch deck 바깥으로 끌어냈다.
AI silicon 투자 열기가 data center 거인들 밖으로 번질지 시험할 장면이 나왔다. Reuters에 따르면 South Korea의 DeepX는 국내 상장을 준비 중이며, 2026년 상반기 funding round를 마친 뒤 IPO 주관사 선정에 나서고 이후 U.S. listing 가능성도 열어두고 있다.
LocalLLaMA의 데모 글은 Gemma 4 E2B와 Kokoro TTS를 이용해 음성·비전 대화를 전부 로컬에서 처리하는 Parlor를 소개했다. README 기준 Apple M3 Pro에서 end-to-end latency는 약 2.5~3.0초, decode speed는 약 83 tokens/sec다.
Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.
Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.
r/LocalLLaMA의 반응은 PrismML Bonsai 발표가 단순한 compression headline 이상으로 받아들여지고 있음을 보여 준다. 회사가 내세운 end-to-end 1-bit 설계와, 실제 사용자가 체감한 사용성 개선이 함께 이야기되고 있다.
LocalLLaMA에서 화제가 된 LFM2.5-350M은 작은 범용 모델이 아니라 tool use와 structured output에 맞춘 350M edge model이라는 점에서 주목받았다. Liquid AI는 10T에서 28T token으로 pretraining을 늘리고 large-scale RL을 더했다고 설명한다.
Hacker News에 올라온 Prism ML의 1-Bit Bonsai는 1.15GB 8B model부터 iPhone급 1.7B model까지, 1-bit weight로 edge inference economics를 다시 쓰겠다는 시도다. 핵심은 parameter count보다 intelligence density와 hardware fit을 전면에 내세운 점이다.
r/LocalLLaMA에서 주목받은 PrismML의 1-bit Bonsai는 8.2B 파라미터를 1.15GB로 줄인 end-to-end 1-bit LLM을 전면에 내세운다. 온디바이스 배포, throughput, energy efficiency를 동시에 노린 launch라는 점이 핵심이다.