Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

r/LocalLLaMA postは、Qwen3.6-35B-A3Bのtuningを、communityが最も好む形で見せた。hardware、flag、tokens per secondだ。投稿者はRTX 5070 Ti 16GB、Ryzen 9800X3D、32GB DDR5、llama.cpp b8829、unsloth/Qwen3.6-35B-A3B-GGUFのUD-Q4_K_Mを使い、128K contextで約79 t/sを出したという。

焦点は--cpu-moeと--n-cpu-moe Nの違いだった。投稿によれば、一般的な--cpu-moeはMoE expertsをすべてCPUに寄せ、GPU memoryをあまり使わない。baselineはgeneration 51.2 t/s、prompt 87.9 t/s、VRAM 3.5GBだった。--n-cpu-moe 20ではgeneration 78.7 t/s、prompt 100.6 t/s、VRAM 12.7GBまで上がった。

さらに-np 1と128K contextを足した構成では、generation 79.3 t/s、prompt 135.8 t/s、VRAM 13.2GBが示された。投稿者はnaiveな--cpu-moe比で約54%速いとまとめた。だからthreadは、Qwen3.6の熱狂というより、sparse MoE layerをCPUとGPUにどう配置するかの話になった。

コメント欄では、--fit on、--fit-ctx 128000、--fit-target 512といった別のrouteも提案された。ここは重要だ。この数字はひとつのhardware/software構成であり、universal benchmarkではない。GPU generation、VRAM、quant、llama.cpp build、context length、batchingで結果は変わる。

それでも価値はある。local LLMの使いやすさはmodel cardだけで決まらない。runtime placement、memory pressure、いくつかのflagが、眠っているVRAMをthroughputに変える。LocalLLaMAが求めているのは、まさにそのknobを試せる形で示す投稿だ。

LLM Reddit May 10, 2026 1 min read

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。

#local-llm #qwen #llama-cpp

LLM Reddit May 22, 2026 1 min read

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

#llama-cpp #qwen #local-llm

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。

#qwen #local-llm #llama-cpp

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

Related Articles

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

Comments (0)

Leave a Comment