Qwen 3.5 로컬 실행 가이드, 메모리 요구량과 256K context, llama.cpp 설정 정리
Original: How to run Qwen 3.5 locally View original →
Hacker News에서 올라온 "How to run Qwen 3.5 locally"는 단순한 모델 소개보다 운영 가이드에 가깝다. 링크된 Unsloth 문서는 Qwen3.5 계열을 실제 로컬 장비에서 어떻게 돌릴지에 초점을 맞추고, 35B-A3B, 27B, 122B-A10B, 397B-A17B와 small 0.8B·2B·4B·9B까지 한 번에 정리한다.
문서에서 가장 실무적인 부분은 메모리 기준표다. 4-bit 기준으로 27B는 17 GB, 35B-A3B는 22 GB, 122B-A10B는 70 GB, 397B-A17B는 214 GB가 필요하다고 제시한다. Unsloth는 Qwen3.5가 256K context와 201개 언어를 지원하며, 27B와 35B-A3B는 22GB급 Mac이나 통합 메모리 환경에서도 현실적인 후보가 될 수 있다고 설명한다. 같은 문서에서 27B는 조금 더 정확도를, 35B-A3B는 더 빠른 inference를 원하는 경우에 권장한다.
가이드가 실제로 제공하는 것
- model size별 메모리 요구량과 quantization 선택 기준
- thinking 모드와 non-thinking 모드별 temperature, top-p, top-k 권장값
--chat-template-kwargs '{"enable_thinking":false}'같은 reasoning 제어 방법llama.cppbuild와llama-cli실행 예시- GGUF 재다운로드, quantization 업데이트, tool-calling template 수정 같은 운영 메모
특히 이 문서는 모델 성능 수치보다 배포 경로를 더 중요하게 다룬다. 최신 llama.cpp를 GitHub에서 받아 빌드하는 절차, Hugging Face에서 GGUF를 내려받는 방식, 그리고 35B-A3B를 Dynamic 4-bit로 실행하는 예시 명령이 모두 포함돼 있다. 또한 March 5 업데이트로 improved quantization algorithm, new imatrix data, tool-calling fix가 반영됐으니 기존 파일을 다시 받아야 한다고 명시한다.
운영 측면에서 중요한 경고도 있다. 문서는 현재 Qwen3.5 GGUF가 separate mmproj vision file 문제 때문에 Ollama에서는 동작하지 않으며, llama.cpp 호환 backend를 쓰는 편이 낫다고 설명한다. 즉 이 HN 항목의 핵심은 "Qwen3.5가 나왔다"가 아니라, 어떤 크기의 모델을 어떤 메모리 예산과 어떤 runtime 설정으로 바로 실험할 수 있는지에 대한 checklist를 제공한다는 점이다. 로컬 LLM을 다루는 팀에게는 발표보다 이런 실행 문서가 더 직접적인 가치가 있다.
Related Articles
LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.
r/LocalLLaMA에서 CPU 메모리로 offload한 가중치를 미리 가져와 prompt 처리 속도를 끌어올리려는 llama.cpp 실험이 주목을 받았다. 긴 context에서 hybrid CPU/GPU 추론의 병목을 줄이려는 시도다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
Comments (0)
No comments yet. Be the first to comment!