r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가
Original: Qwen3.5 27B is Match Made in Heaven for Size and Performance View original →
r/LocalLLaMA thread 하나가 Qwen3.5 27B를 local deployment 관점에서 상당히 실용적인 model로 부각시키고 있다. 원글 작성자는 Qwen3.5-27B-Q8_0 unsloth GGUF를 RTX A6000 48GB에서 llama.cpp with CUDA로 구동했고, 32K context에서 약 19.7 tokens/sec를 얻었다고 적었다. 작성자에 따르면 Q8 quant가 약 28.6GB VRAM에 들어가서 KV cache를 위한 headroom도 충분했고, quality는 full BF16과 사실상 비슷해 lower quant로 내릴 이유가 적었다는 판단이다.
이 post가 흥미로운 이유는 단순 benchmark bragging을 넘어서, model의 architectural sweet spot을 짚기 때문이다. 글은 Qwen3.5 27B가 Gated Delta Networks와 standard attention layers를 섞은 hybrid architecture를 사용해 long context에서 pure transformer보다 더 빠르게 동작할 수 있다고 설명한다. 링크된 Qwen model card 역시 hybrid architecture, 27B parameters, 262,144 native context, 최대 약 1,010,000 tokens 확장 가능성, 201 languages 지원, 그리고 vision encoder를 명시한다. 즉 이 thread는 단지 “잘 돌아간다”가 아니라, 왜 이 model이 local use case에서 매력적인지 구조적으로 설명하려고 한다.
댓글이 보여 준 핵심은 VRAM economics다
model card의 benchmark 표도 이 관심을 뒷받침한다. Qwen3.5 27B는 GPQA Diamond 85.5, SWE-bench Verified 72.4, HMMT Feb 25 92.0, BFCL-V4 68.5 같은 수치를 제시한다. 댓글 구간에서는 dense 27B와 Qwen3.5 35B-A3B MoE를 두고 hardware economics 논쟁이 이어진다. 한 사용자는 single RTX 3090에서 Q5 quant로 약 25 tokens/sec를 본다고 적었고, 다른 사용자는 low-VRAM 환경에서는 오히려 MoE 쪽이 dense 27B보다 훨씬 빠를 수 있다고 주장한다. 즉 community가 보는 핵심은 절대 성능 하나가 아니라, quality와 speed가 어떤 hardware envelope에서 가장 잘 만나는가다.
그래서 이 thread의 의미는 새 model release 소식 자체보다 deployment recipe 공유에 있다. OpenAI-compatible llama-server endpoint로 기존 SDK integration에 drop-in replacement처럼 붙일 수 있다는 점도 local builder에게는 중요하다. frontier-grade closed model과 모든 면에서 같다는 뜻은 아니지만, single high-memory GPU에서 강한 quality와 practical speed를 동시에 노릴 수 있다는 점에서 Qwen3.5 27B는 분명한 reference point가 되고 있다. 출처는 r/LocalLLaMA post 와 Qwen3.5-27B model card다.
Related Articles
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
Comments (0)
No comments yet. Be the first to comment!