llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA
Original: Llama.cpp's auto fit works much better than I expected View original →
r/LocalLLaMA에서 주목받은 글은 llama.cpp의 --fit 옵션이 생각보다 훨씬 잘 동작한다는 실사용 보고다. 작성자는 32GB VRAM 환경에서 Qwen3.6 Q8과 256k context를 테스트했고, weights가 VRAM보다 큰 상황에서도 5090과 Oculink 구성으로 57 tokens/s를 봤다고 적었다. 핵심은 숫자 하나보다도, local LLM 사용자들이 갖고 있던 “모델이 VRAM 안에 깔끔히 들어가지 않으면 2 t/s 늪”이라는 감각이 흔들렸다는 점이다.
thread의 댓글은 바로 tuning 모드로 들어갔다. 한 사용자는 KV cache를 Q8_0로 quantize하면 256k context까지 더 많이 VRAM에 넣고 token speed가 두 배 이상 나올 수 있다고 했다. 다른 사용자는 Qwen3.6 35B가 MoE architecture라 active parameter가 약 3B 수준인 점을 들어, dense 27B model에서는 같은 경험이 덜할 수 있다고 짚었다. 또 다른 댓글은 Qwen3.6 35B quant를 기존 12 t/s에서 48 t/s로 끌어올렸다고 공유했다.
--fit은 manual tensor split에 쓰던 시간을 줄일 수 있다는 기대를 만들었다.- KV cache quantization과
fit target조정이 추가 성능 포인트로 언급됐다. - MoE와 dense model의 차이를 구분해야 한다는 caveat도 함께 나왔다.
community discussion noted that 자동 배치가 항상 이기는 것은 아니다. 여러 GPU나 machine에 걸쳐 barely-fit model을 돌릴 때는 여전히 manual split이 나을 수 있다는 반례도 있었다. 그래도 이 thread의 에너지는 분명하다. local inference는 더 이상 “VRAM 용량표만 보고 포기하는” 영역이 아니라, runtime placement, cache format, interconnect, quantization을 같이 조정하는 영역으로 이동하고 있다.
원문 thread는 r/LocalLLaMA에 있다.
Related Articles
LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.
r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.
Comments (0)
No comments yet. Be the first to comment!