Qwen 3.5 로컬 실행 가이드, 메모리 요구량과 256K context, llama.cpp 설정 정리

Hacker News에서 올라온 "How to run Qwen 3.5 locally"는 단순한 모델 소개보다 운영 가이드에 가깝다. 링크된 Unsloth 문서는 Qwen3.5 계열을 실제 로컬 장비에서 어떻게 돌릴지에 초점을 맞추고, 35B-A3B, 27B, 122B-A10B, 397B-A17B와 small 0.8B·2B·4B·9B까지 한 번에 정리한다.

문서에서 가장 실무적인 부분은 메모리 기준표다. 4-bit 기준으로 27B는 17 GB, 35B-A3B는 22 GB, 122B-A10B는 70 GB, 397B-A17B는 214 GB가 필요하다고 제시한다. Unsloth는 Qwen3.5가 256K context와 201개 언어를 지원하며, 27B와 35B-A3B는 22GB급 Mac이나 통합 메모리 환경에서도 현실적인 후보가 될 수 있다고 설명한다. 같은 문서에서 27B는 조금 더 정확도를, 35B-A3B는 더 빠른 inference를 원하는 경우에 권장한다.

가이드가 실제로 제공하는 것

model size별 메모리 요구량과 quantization 선택 기준
thinking 모드와 non-thinking 모드별 temperature, top-p, top-k 권장값
--chat-template-kwargs '{"enable_thinking":false}' 같은 reasoning 제어 방법
llama.cpp build와 llama-cli 실행 예시
GGUF 재다운로드, quantization 업데이트, tool-calling template 수정 같은 운영 메모

특히 이 문서는 모델 성능 수치보다 배포 경로를 더 중요하게 다룬다. 최신 llama.cpp를 GitHub에서 받아 빌드하는 절차, Hugging Face에서 GGUF를 내려받는 방식, 그리고 35B-A3B를 Dynamic 4-bit로 실행하는 예시 명령이 모두 포함돼 있다. 또한 March 5 업데이트로 improved quantization algorithm, new imatrix data, tool-calling fix가 반영됐으니 기존 파일을 다시 받아야 한다고 명시한다.

운영 측면에서 중요한 경고도 있다. 문서는 현재 Qwen3.5 GGUF가 separate mmproj vision file 문제 때문에 Ollama에서는 동작하지 않으며, llama.cpp 호환 backend를 쓰는 편이 낫다고 설명한다. 즉 이 HN 항목의 핵심은 "Qwen3.5가 나왔다"가 아니라, 어떤 크기의 모델을 어떤 메모리 예산과 어떤 runtime 설정으로 바로 실험할 수 있는지에 대한 checklist를 제공한다는 점이다. 로컬 LLM을 다루는 팀에게는 발표보다 이런 실행 문서가 더 직접적인 가치가 있다.

Qwen 3.5 로컬 실행 가이드, 메모리 요구량과 256K context, llama.cpp 설정 정리

가이드가 실제로 제공하는 것

Related Articles

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

LocalLLaMA가 주목한 llama.cpp의 CPU offload prefetch 실험

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Comments (0)

Leave a Comment

Related Articles

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다
LLM Reddit Apr 16, 2026 1 min read

LocalLLaMA가 주목한 llama.cpp의 CPU offload prefetch 실험
LLM Reddit Mar 31, 2026 1 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다
LLM Reddit Apr 18, 2026 1 min read