llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA

r/LocalLLaMA에서 주목받은 글은 llama.cpp의 --fit 옵션이 생각보다 훨씬 잘 동작한다는 실사용 보고다. 작성자는 32GB VRAM 환경에서 Qwen3.6 Q8과 256k context를 테스트했고, weights가 VRAM보다 큰 상황에서도 5090과 Oculink 구성으로 57 tokens/s를 봤다고 적었다. 핵심은 숫자 하나보다도, local LLM 사용자들이 갖고 있던 “모델이 VRAM 안에 깔끔히 들어가지 않으면 2 t/s 늪”이라는 감각이 흔들렸다는 점이다.

thread의 댓글은 바로 tuning 모드로 들어갔다. 한 사용자는 KV cache를 Q8_0로 quantize하면 256k context까지 더 많이 VRAM에 넣고 token speed가 두 배 이상 나올 수 있다고 했다. 다른 사용자는 Qwen3.6 35B가 MoE architecture라 active parameter가 약 3B 수준인 점을 들어, dense 27B model에서는 같은 경험이 덜할 수 있다고 짚었다. 또 다른 댓글은 Qwen3.6 35B quant를 기존 12 t/s에서 48 t/s로 끌어올렸다고 공유했다.

--fit은 manual tensor split에 쓰던 시간을 줄일 수 있다는 기대를 만들었다.
KV cache quantization과 fit target 조정이 추가 성능 포인트로 언급됐다.
MoE와 dense model의 차이를 구분해야 한다는 caveat도 함께 나왔다.

community discussion noted that 자동 배치가 항상 이기는 것은 아니다. 여러 GPU나 machine에 걸쳐 barely-fit model을 돌릴 때는 여전히 manual split이 나을 수 있다는 반례도 있었다. 그래도 이 thread의 에너지는 분명하다. local inference는 더 이상 “VRAM 용량표만 보고 포기하는” 영역이 아니라, runtime placement, cache format, interconnect, quantization을 같이 조정하는 영역으로 이동하고 있다.

원문 thread는 r/LocalLLaMA에 있다.

LLM Reddit May 22, 2026 1 min read

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.

#llama-cpp #qwen #local-llm

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.

#qwen #local-llm #llama-cpp

LLM Reddit Mar 30, 2026 1 min read

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.

#qwen #llama-cpp #opencode

Related Articles

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목