Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

r/LocalLLaMA post는 Qwen3.6-35B-A3B를 consumer hardware에서 돌리는 사람들에게 바로 먹히는 benchmark였다. 작성자는 RTX 5070 Ti 16GB, Ryzen 9800X3D, 32GB DDR5, llama.cpp b8829, unsloth/Qwen3.6-35B-A3B-GGUF의 UD-Q4_K_M 조합을 썼고, 128K context에서도 약 79 t/s를 냈다고 공유했다.

핵심은 --cpu-moe와 --n-cpu-moe N의 차이였다. 작성자에 따르면 일반적인 --cpu-moe는 MoE experts를 전부 CPU로 밀어 GPU memory를 충분히 쓰지 못하게 만들었다. baseline은 generation 51.2 t/s, prompt 87.9 t/s, VRAM 3.5GB였다. 반면 --n-cpu-moe 20은 generation 78.7 t/s, prompt 100.6 t/s, VRAM 12.7GB까지 올라갔다.

여기에 -np 1과 128K context를 더한 구성에서는 generation 79.3 t/s, prompt 135.8 t/s, VRAM 13.2GB가 제시됐다. 작성자는 naive --cpu-moe 대비 generation과 prompt가 모두 약 54% 빨라졌다고 정리했다. 그래서 댓글의 관심도 “Qwen3.6이 좋다”보다 “MoE layer를 GPU와 CPU에 어떻게 나눌 것인가”로 모였다.

댓글에서는 --fit on, --fit-ctx 128000, --fit-target 512 같은 대안도 나왔다. 즉 이 thread는 절대적인 정답이 아니라 tuning surface를 보여주는 자료에 가깝다. GPU 세대, VRAM, quant, llama.cpp build, context, batch 설정이 바뀌면 결과도 달라질 수 있다.

그럼에도 게시물이 유용한 이유는 명확하다. local LLM의 체감 성능은 model card보다 placement와 runtime flag에서 크게 갈린다. Qwen3.6 같은 sparse MoE model은 특히 그렇다. r/LocalLLaMA가 좋아하는 글은 결국 “내 장비에서 어떤 knob을 돌려야 하는가”를 숫자로 보여주는 글이다.

LLM Reddit May 10, 2026 1 min read

12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.

#local-llm #qwen #llama-cpp

LLM Reddit May 22, 2026 1 min read

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.

#llama-cpp #qwen #local-llm

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.

#qwen #local-llm #llama-cpp

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

Related Articles

12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

RTX 4070 12GB에서 35B 모델 110 tok/s — ik_llama.cpp 최적화 효과

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

Comments (0)

Leave a Comment