llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA

r/LocalLLaMA에서 주목받은 글은 llama.cpp의 --fit 옵션이 생각보다 훨씬 잘 동작한다는 실사용 보고다. 작성자는 32GB VRAM 환경에서 Qwen3.6 Q8과 256k context를 테스트했고, weights가 VRAM보다 큰 상황에서도 5090과 Oculink 구성으로 57 tokens/s를 봤다고 적었다. 핵심은 숫자 하나보다도, local LLM 사용자들이 갖고 있던 “모델이 VRAM 안에 깔끔히 들어가지 않으면 2 t/s 늪”이라는 감각이 흔들렸다는 점이다.

thread의 댓글은 바로 tuning 모드로 들어갔다. 한 사용자는 KV cache를 Q8_0로 quantize하면 256k context까지 더 많이 VRAM에 넣고 token speed가 두 배 이상 나올 수 있다고 했다. 다른 사용자는 Qwen3.6 35B가 MoE architecture라 active parameter가 약 3B 수준인 점을 들어, dense 27B model에서는 같은 경험이 덜할 수 있다고 짚었다. 또 다른 댓글은 Qwen3.6 35B quant를 기존 12 t/s에서 48 t/s로 끌어올렸다고 공유했다.

--fit은 manual tensor split에 쓰던 시간을 줄일 수 있다는 기대를 만들었다.
KV cache quantization과 fit target 조정이 추가 성능 포인트로 언급됐다.
MoE와 dense model의 차이를 구분해야 한다는 caveat도 함께 나왔다.

community discussion noted that 자동 배치가 항상 이기는 것은 아니다. 여러 GPU나 machine에 걸쳐 barely-fit model을 돌릴 때는 여전히 manual split이 나을 수 있다는 반례도 있었다. 그래도 이 thread의 에너지는 분명하다. local inference는 더 이상 “VRAM 용량표만 보고 포기하는” 영역이 아니라, runtime placement, cache format, interconnect, quantization을 같이 조정하는 영역으로 이동하고 있다.

원문 thread는 r/LocalLLaMA에 있다.

LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

#local-llm #llama-cpp #moe

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다

LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.

#local-llm #llama-cpp #optimization

LLM Reddit 4d ago 1 min read

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.

#qwen #llama-cpp #local-llm

llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA

Related Articles

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

Comments (0)

Leave a Comment