Quantized Gemma 4 31B, 메모리 절반으로 tokens/sec를 거의 두 배 끌어올리다
Original: What compression looks like on @vllm_project. Same Gemma 4 31B. Red Hat AI's quantized version runs at nearly 2x tokens/sec, half the memory, 99%+ accuracy retained. Open source. Quantized with LLM Compressor. Links in comments. @_soyr_ for the 2-minute demo. View original →
트윗이 내놓은 숫자
Quantization은 숫자만 화려하고 실제 서비스에서는 미묘한 품질 손실로 무너지는 경우가 많다. 그래서 Red Hat AI가 2026년 4월 13일 X에 올린 요약은 단순하지만 강하다.
“nearly 2x tokens/sec, half the memory, 99%+ accuracy retained.”
비교 대상도 명확하다. 같은 Gemma 4 31B를 두고 quantized variant가 tokens/sec를 거의 2배로 끌어올리고, 메모리는 절반으로 줄이며, 정확도는 99%+를 유지했다는 주장이다. 이 수치가 흔한 inference setup에서도 재현된다면 31B급 open model을 어떤 hardware tier에서 돌릴 수 있는지, 그리고 batching과 latency budget을 어디까지 밀 수 있는지가 달라진다.
왜 open-source 문맥이 중요한가
Red Hat AI 계정은 consumer teaser보다 open model serving, quantization, vLLM ecosystem 관련 실무 신호를 많이 올린다. 이번 post도 그 연장선에 있지만, 단순한 “더 빨라졌다”가 아니라는 점이 핵심이다. 댓글에는 LLM Compressor repo와 여러 Gemma 4 quantized checkpoint가 직접 연결돼 있다. GitHub 설명에 따르면 LLM Compressor는 vllm 배포 최적화를 위한 library로, weight-only 및 activation quantization, Hugging Face integration, safetensors 기반 포맷 호환성을 제공한다.
후속 reply는 근거를 더 보탠다. Red Hat AI는 팀이 quantized models에 대해 500,000 evals를 수행했고, 결과를 “Give Me BF16 or Give Me Death?” 논문과 연결했다. 핵심은 checkpoint를 더 작게 만드는 데 그치지 않고, 포맷을 잘 고르면 baseline accuracy의 99%+를 회복하면서도 serving 비용을 실질적으로 낮출 수 있다는 주장이다.
이제 봐야 할 것은 재현성이다. X에서는 throughput screenshot이 빠르게 확산되지만, 실제 현장에서는 GPU 종류, prompt 길이, tool calling trace, chat template 민감한 작업에서 품질이 어떻게 유지되는지가 더 중요하다. independent builder들이 open Gemma 4 variants가 메모리 압박을 줄이면서도 품질을 지킨다고 확인한다면, 이번 post는 단순 benchmark 홍보가 아니라 강한 open model을 더 싼 비용으로 굴릴 수 있다는 실무 신호가 된다.
Sources: Red Hat AI X post · LLM Compressor · quantization paper · Red Hat AI Hugging Face models
Related Articles
약 350포인트를 받은 LocalLLaMA 글은 Gemma 4 26B A3B가 적절한 runtime 설정과 함께할 때 로컬 coding-agent·tool-calling 워크플로에서 유난히 강하게 느껴진다고 주장한다. 작성자는 다른 로컬 모델 스택에서 겪었던 prompt caching과 function calling 문제와 대비해 이를 설명했다.
vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.
상세한 `r/LocalLLaMA` 벤치마크는 `Gemma 4 31B`에 `Gemma 4 E2B` 초안 모델을 붙인 `llama.cpp` 구성에서 평균 처리량이 `57.17 t/s`에서 `73.73 t/s`로 올랐다고 보고했다.
Comments (0)
No comments yet. Be the first to comment!