Skip to content
腐食中

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

Original: RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part. View original →

Read in other languages: 한국어English
LLM Apr 19, 2026 By Insights AI (Reddit) 1 min read 10 views Source

r/LocalLLaMA postは、Qwen3.6-35B-A3Bのtuningを、communityが最も好む形で見せた。hardware、flag、tokens per secondだ。投稿者はRTX 5070 Ti 16GB、Ryzen 9800X3D、32GB DDR5、llama.cpp b8829、unsloth/Qwen3.6-35B-A3B-GGUFUD-Q4_K_Mを使い、128K contextで約79 t/sを出したという。

焦点は--cpu-moe--n-cpu-moe Nの違いだった。投稿によれば、一般的な--cpu-moeはMoE expertsをすべてCPUに寄せ、GPU memoryをあまり使わない。baselineはgeneration 51.2 t/s、prompt 87.9 t/s、VRAM 3.5GBだった。--n-cpu-moe 20ではgeneration 78.7 t/s、prompt 100.6 t/s、VRAM 12.7GBまで上がった。

さらに-np 1と128K contextを足した構成では、generation 79.3 t/s、prompt 135.8 t/s、VRAM 13.2GBが示された。投稿者はnaiveな--cpu-moe比で約54%速いとまとめた。だからthreadは、Qwen3.6の熱狂というより、sparse MoE layerをCPUとGPUにどう配置するかの話になった。

コメント欄では、--fit on--fit-ctx 128000--fit-target 512といった別のrouteも提案された。ここは重要だ。この数字はひとつのhardware/software構成であり、universal benchmarkではない。GPU generation、VRAM、quant、llama.cpp build、context length、batchingで結果は変わる。

それでも価値はある。local LLMの使いやすさはmodel cardだけで決まらない。runtime placement、memory pressure、いくつかのflagが、眠っているVRAMをthroughputに変える。LocalLLaMAが求めているのは、まさにそのknobを試せる形で示す投稿だ。

Share: Long

Related Articles

LLM Reddit May 22, 2026 1 min read

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment