Qwen 3.5 로컬 실행 가이드, 메모리 요구량과 256K context, llama.cpp 설정 정리

Original: How to run Qwen 3.5 locally View original →

Read in other languages: English日本語
LLM Mar 8, 2026 By Insights AI (HN) 1 min read 3 views Source

Hacker News에서 올라온 "How to run Qwen 3.5 locally"는 단순한 모델 소개보다 운영 가이드에 가깝다. 링크된 Unsloth 문서는 Qwen3.5 계열을 실제 로컬 장비에서 어떻게 돌릴지에 초점을 맞추고, 35B-A3B, 27B, 122B-A10B, 397B-A17B와 small 0.8B·2B·4B·9B까지 한 번에 정리한다.

문서에서 가장 실무적인 부분은 메모리 기준표다. 4-bit 기준으로 27B는 17 GB, 35B-A3B는 22 GB, 122B-A10B는 70 GB, 397B-A17B는 214 GB가 필요하다고 제시한다. Unsloth는 Qwen3.5가 256K context와 201개 언어를 지원하며, 27B와 35B-A3B는 22GB급 Mac이나 통합 메모리 환경에서도 현실적인 후보가 될 수 있다고 설명한다. 같은 문서에서 27B는 조금 더 정확도를, 35B-A3B는 더 빠른 inference를 원하는 경우에 권장한다.

가이드가 실제로 제공하는 것

  • model size별 메모리 요구량과 quantization 선택 기준
  • thinking 모드와 non-thinking 모드별 temperature, top-p, top-k 권장값
  • --chat-template-kwargs '{"enable_thinking":false}' 같은 reasoning 제어 방법
  • llama.cpp build와 llama-cli 실행 예시
  • GGUF 재다운로드, quantization 업데이트, tool-calling template 수정 같은 운영 메모

특히 이 문서는 모델 성능 수치보다 배포 경로를 더 중요하게 다룬다. 최신 llama.cpp를 GitHub에서 받아 빌드하는 절차, Hugging Face에서 GGUF를 내려받는 방식, 그리고 35B-A3B를 Dynamic 4-bit로 실행하는 예시 명령이 모두 포함돼 있다. 또한 March 5 업데이트로 improved quantization algorithm, new imatrix data, tool-calling fix가 반영됐으니 기존 파일을 다시 받아야 한다고 명시한다.

운영 측면에서 중요한 경고도 있다. 문서는 현재 Qwen3.5 GGUF가 separate mmproj vision file 문제 때문에 Ollama에서는 동작하지 않으며, llama.cpp 호환 backend를 쓰는 편이 낫다고 설명한다. 즉 이 HN 항목의 핵심은 "Qwen3.5가 나왔다"가 아니라, 어떤 크기의 모델을 어떤 메모리 예산과 어떤 runtime 설정으로 바로 실험할 수 있는지에 대한 checklist를 제공한다는 점이다. 로컬 LLM을 다루는 팀에게는 발표보다 이런 실행 문서가 더 직접적인 가치가 있다.

Share:

Related Articles

LLM Reddit Feb 12, 2026 1 min read

llama.cpp에 Alibaba의 Qwen3.5 모델 시리즈 지원이 추가되었습니다. Dense와 MoE(Mixture-of-Experts) 변형을 모두 지원하며, 사용자들은 최신 언어 모델을 로컬에서 실행할 수 있게 되었습니다. 흥미롭게도 이 구현은 Claude Opus 4.6의 도움으로 생성되었습니다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.