Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe
Original: RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part. View original →
r/LocalLLaMA post는 Qwen3.6-35B-A3B를 consumer hardware에서 돌리는 사람들에게 바로 먹히는 benchmark였다. 작성자는 RTX 5070 Ti 16GB, Ryzen 9800X3D, 32GB DDR5, llama.cpp b8829, unsloth/Qwen3.6-35B-A3B-GGUF의 UD-Q4_K_M 조합을 썼고, 128K context에서도 약 79 t/s를 냈다고 공유했다.
핵심은 --cpu-moe와 --n-cpu-moe N의 차이였다. 작성자에 따르면 일반적인 --cpu-moe는 MoE experts를 전부 CPU로 밀어 GPU memory를 충분히 쓰지 못하게 만들었다. baseline은 generation 51.2 t/s, prompt 87.9 t/s, VRAM 3.5GB였다. 반면 --n-cpu-moe 20은 generation 78.7 t/s, prompt 100.6 t/s, VRAM 12.7GB까지 올라갔다.
여기에 -np 1과 128K context를 더한 구성에서는 generation 79.3 t/s, prompt 135.8 t/s, VRAM 13.2GB가 제시됐다. 작성자는 naive --cpu-moe 대비 generation과 prompt가 모두 약 54% 빨라졌다고 정리했다. 그래서 댓글의 관심도 “Qwen3.6이 좋다”보다 “MoE layer를 GPU와 CPU에 어떻게 나눌 것인가”로 모였다.
댓글에서는 --fit on, --fit-ctx 128000, --fit-target 512 같은 대안도 나왔다. 즉 이 thread는 절대적인 정답이 아니라 tuning surface를 보여주는 자료에 가깝다. GPU 세대, VRAM, quant, llama.cpp build, context, batch 설정이 바뀌면 결과도 달라질 수 있다.
그럼에도 게시물이 유용한 이유는 명확하다. local LLM의 체감 성능은 model card보다 placement와 runtime flag에서 크게 갈린다. Qwen3.6 같은 sparse MoE model은 특히 그렇다. r/LocalLLaMA가 좋아하는 글은 결국 “내 장비에서 어떤 knob을 돌려야 하는가”를 숫자로 보여주는 글이다.
Related Articles
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
LocalLLaMA가 반응한 포인트는 “LLM이 스스로 빨라진다”는 농담 같은 구조가 실제 benchmark 숫자로 이어졌다는 점이었다. 작성자는 llm-server v2의 --ai-tune이 llama-server help를 context로 읽고 flag 조합을 돌며 fastest config를 cache한다고 설명했고, Qwen3.5-27B Q4_K_M은 18.5 tok/s에서 40.05 tok/s까지 올라갔다고 공유했다.
Comments (0)
No comments yet. Be the first to comment!