Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe
Original: RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part. View original →
r/LocalLLaMA post는 Qwen3.6-35B-A3B를 consumer hardware에서 돌리는 사람들에게 바로 먹히는 benchmark였다. 작성자는 RTX 5070 Ti 16GB, Ryzen 9800X3D, 32GB DDR5, llama.cpp b8829, unsloth/Qwen3.6-35B-A3B-GGUF의 UD-Q4_K_M 조합을 썼고, 128K context에서도 약 79 t/s를 냈다고 공유했다.
핵심은 --cpu-moe와 --n-cpu-moe N의 차이였다. 작성자에 따르면 일반적인 --cpu-moe는 MoE experts를 전부 CPU로 밀어 GPU memory를 충분히 쓰지 못하게 만들었다. baseline은 generation 51.2 t/s, prompt 87.9 t/s, VRAM 3.5GB였다. 반면 --n-cpu-moe 20은 generation 78.7 t/s, prompt 100.6 t/s, VRAM 12.7GB까지 올라갔다.
여기에 -np 1과 128K context를 더한 구성에서는 generation 79.3 t/s, prompt 135.8 t/s, VRAM 13.2GB가 제시됐다. 작성자는 naive --cpu-moe 대비 generation과 prompt가 모두 약 54% 빨라졌다고 정리했다. 그래서 댓글의 관심도 “Qwen3.6이 좋다”보다 “MoE layer를 GPU와 CPU에 어떻게 나눌 것인가”로 모였다.
댓글에서는 --fit on, --fit-ctx 128000, --fit-target 512 같은 대안도 나왔다. 즉 이 thread는 절대적인 정답이 아니라 tuning surface를 보여주는 자료에 가깝다. GPU 세대, VRAM, quant, llama.cpp build, context, batch 설정이 바뀌면 결과도 달라질 수 있다.
그럼에도 게시물이 유용한 이유는 명확하다. local LLM의 체감 성능은 model card보다 placement와 runtime flag에서 크게 갈린다. Qwen3.6 같은 sparse MoE model은 특히 그렇다. r/LocalLLaMA가 좋아하는 글은 결국 “내 장비에서 어떤 knob을 돌려야 하는가”를 숫자로 보여주는 글이다.
Related Articles
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
Comments (0)
No comments yet. Be the first to comment!