LocalLLaMA, RTX 5090 한 장에서 Gemma 4 31B 256K context benchmark 공개
Original: Gemma 4 31B at 256K Full Context on a Single RTX 5090 — TurboQuant KV Cache Benchmark View original →
r/LocalLLaMA의 benchmark post가 주목받은 이유는 local model 사용자들이 반복해서 부딪히는 질문을 정면으로 다뤘기 때문이다. KV cache compression을 강하게 쓰면 consumer GPU 한 장에서 Gemma 4 context length를 어디까지 밀어올릴 수 있는가? 작성자는 custom llama.cpp fork와 TurboQuant KV cache를 이용해 RTX 5090 한 장에서 gemma-4-31B-it-UD-Q4_K_XL을 256K full context로 돌렸다고 보고했다.
post는 setup을 unusually transparent하게 공개했다. GPU는 32GB VRAM의 RTX 5090, CPU는 Ryzen 9 9950X3D, 메모리는 64GB DDR5, OS는 Windows 11이다. build는 TheTom/llama-cpp-turboquant branch에 최신 Gemma 4 지원을 합친 형태라고 설명한다. KV cache는 turbo3 모드를 사용했고, 작성자는 이를 f16 대비 약 4.5배 압축이라고 소개했다. 262K context에서 VRAM 사용량은 27.7GB로, 카드에 약 4.3GB headroom이 남았다고 적었다.
- prompt processing은 4K context에서 3,362.71 tokens/s, 262K context에서 899.55 tokens/s라고 보고됐다.
- token generation 속도는 61.51 tokens/s였다.
- 작성자는 compressed KV cache 없이는 32GB VRAM에서 256K context가 사실상 불가능하다고 봤다.
- 또 Gemma 4를 위해 필요한 Windows/MSVC build fix도 함께 적었다.
이 post의 가치는 benchmark 숫자만이 아니라 engineering caveat를 함께 준다는 데 있다. 작성자는 575W 구간에서 thermal throttling이 있었다고 인정했고, prompt processing 속도 저하는 quadratic attention cost와 연결해 설명했다. 반면 generation speed는 memory bandwidth bound라고 구분했다. 여기에 GGUF bool array를 읽는 std::transform 관련 Release build 이슈까지 적어, Gemma 4의 sliding-window attention pattern이 어디서 깨졌는지도 공유했다.
댓글도 적절하게 회의적이었다. 상위 반응은 KV quant를 이렇게 강하게 걸었을 때 품질이 얼마나 무너지느냐와, 256K를 넣은 뒤에도 실제로 필요한 long-context recall이 유지되느냐를 물었다. 그래서 이 쓰레드는 단순한 자랑보다 낫다. local LLM 커뮤니티가 it fits에서 멈추지 않고 it still works까지 검증하려는 방향을 보여주고, 다른 사용자가 재현하거나 반박할 수 있을 만큼 설정과 failure detail을 남겼기 때문이다.
Related Articles
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
r/LocalLLaMA는 llama.cpp PR #21038 병합 소식을 빠르게 끌어올리며, Hadamard 기반 회전으로 Q, K, V를 처리하는 방식이 TurboQuant 계열 이득을 더 낮은 마찰로 가져올 수 있다고 보고 있다. 포인트는 새 quantization format 없이 기존 스택에 붙는다는 점이다.
LocalLLaMA가 이 thread를 크게 띄운 이유는 local agent stack에서 가장 귀찮은 별도 음성 파이프라인 하나를 치울 수 있다는 기대 때문이다. 게시물은 llama.cpp의 llama-server가 Gemma-4 E2A와 E4A 모델로 STT를 처리할 수 있게 됐다고 전했고, 댓글은 곧바로 Whisper와 Voxtral 비교로 넘어갔다.
Comments (0)
No comments yet. Be the first to comment!