llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA
Original: Llama.cpp's auto fit works much better than I expected View original →
r/LocalLLaMA에서 주목받은 글은 llama.cpp의 --fit 옵션이 생각보다 훨씬 잘 동작한다는 실사용 보고다. 작성자는 32GB VRAM 환경에서 Qwen3.6 Q8과 256k context를 테스트했고, weights가 VRAM보다 큰 상황에서도 5090과 Oculink 구성으로 57 tokens/s를 봤다고 적었다. 핵심은 숫자 하나보다도, local LLM 사용자들이 갖고 있던 “모델이 VRAM 안에 깔끔히 들어가지 않으면 2 t/s 늪”이라는 감각이 흔들렸다는 점이다.
thread의 댓글은 바로 tuning 모드로 들어갔다. 한 사용자는 KV cache를 Q8_0로 quantize하면 256k context까지 더 많이 VRAM에 넣고 token speed가 두 배 이상 나올 수 있다고 했다. 다른 사용자는 Qwen3.6 35B가 MoE architecture라 active parameter가 약 3B 수준인 점을 들어, dense 27B model에서는 같은 경험이 덜할 수 있다고 짚었다. 또 다른 댓글은 Qwen3.6 35B quant를 기존 12 t/s에서 48 t/s로 끌어올렸다고 공유했다.
--fit은 manual tensor split에 쓰던 시간을 줄일 수 있다는 기대를 만들었다.- KV cache quantization과
fit target조정이 추가 성능 포인트로 언급됐다. - MoE와 dense model의 차이를 구분해야 한다는 caveat도 함께 나왔다.
community discussion noted that 자동 배치가 항상 이기는 것은 아니다. 여러 GPU나 machine에 걸쳐 barely-fit model을 돌릴 때는 여전히 manual split이 나을 수 있다는 반례도 있었다. 그래도 이 thread의 에너지는 분명하다. local inference는 더 이상 “VRAM 용량표만 보고 포기하는” 영역이 아니라, runtime placement, cache format, interconnect, quantization을 같이 조정하는 영역으로 이동하고 있다.
원문 thread는 r/LocalLLaMA에 있다.
Related Articles
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.