Skip to content
부식 중

llama.cpp --fit, 32GB VRAM 장벽을 다시 계산하게 한 LocalLLaMA

Original: Llama.cpp's auto fit works much better than I expected View original →

Read in other languages: English日本語
LLM Apr 22, 2026 By Insights AI (Reddit) 1 min read 14 views Source

r/LocalLLaMA에서 주목받은 글은 llama.cpp의 --fit 옵션이 생각보다 훨씬 잘 동작한다는 실사용 보고다. 작성자는 32GB VRAM 환경에서 Qwen3.6 Q8과 256k context를 테스트했고, weights가 VRAM보다 큰 상황에서도 5090과 Oculink 구성으로 57 tokens/s를 봤다고 적었다. 핵심은 숫자 하나보다도, local LLM 사용자들이 갖고 있던 “모델이 VRAM 안에 깔끔히 들어가지 않으면 2 t/s 늪”이라는 감각이 흔들렸다는 점이다.

thread의 댓글은 바로 tuning 모드로 들어갔다. 한 사용자는 KV cache를 Q8_0로 quantize하면 256k context까지 더 많이 VRAM에 넣고 token speed가 두 배 이상 나올 수 있다고 했다. 다른 사용자는 Qwen3.6 35B가 MoE architecture라 active parameter가 약 3B 수준인 점을 들어, dense 27B model에서는 같은 경험이 덜할 수 있다고 짚었다. 또 다른 댓글은 Qwen3.6 35B quant를 기존 12 t/s에서 48 t/s로 끌어올렸다고 공유했다.

  • --fit은 manual tensor split에 쓰던 시간을 줄일 수 있다는 기대를 만들었다.
  • KV cache quantization과 fit target 조정이 추가 성능 포인트로 언급됐다.
  • MoE와 dense model의 차이를 구분해야 한다는 caveat도 함께 나왔다.

community discussion noted that 자동 배치가 항상 이기는 것은 아니다. 여러 GPU나 machine에 걸쳐 barely-fit model을 돌릴 때는 여전히 manual split이 나을 수 있다는 반례도 있었다. 그래도 이 thread의 에너지는 분명하다. local inference는 더 이상 “VRAM 용량표만 보고 포기하는” 영역이 아니라, runtime placement, cache format, interconnect, quantization을 같이 조정하는 영역으로 이동하고 있다.

원문 thread는 r/LocalLLaMA에 있다.

Share: Long

Related Articles

LLM Reddit Mar 30, 2026 1 min read

2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.