Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった
Original: RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part. View original →
r/LocalLLaMA postは、Qwen3.6-35B-A3Bのtuningを、communityが最も好む形で見せた。hardware、flag、tokens per secondだ。投稿者はRTX 5070 Ti 16GB、Ryzen 9800X3D、32GB DDR5、llama.cpp b8829、unsloth/Qwen3.6-35B-A3B-GGUFのUD-Q4_K_Mを使い、128K contextで約79 t/sを出したという。
焦点は--cpu-moeと--n-cpu-moe Nの違いだった。投稿によれば、一般的な--cpu-moeはMoE expertsをすべてCPUに寄せ、GPU memoryをあまり使わない。baselineはgeneration 51.2 t/s、prompt 87.9 t/s、VRAM 3.5GBだった。--n-cpu-moe 20ではgeneration 78.7 t/s、prompt 100.6 t/s、VRAM 12.7GBまで上がった。
さらに-np 1と128K contextを足した構成では、generation 79.3 t/s、prompt 135.8 t/s、VRAM 13.2GBが示された。投稿者はnaiveな--cpu-moe比で約54%速いとまとめた。だからthreadは、Qwen3.6の熱狂というより、sparse MoE layerをCPUとGPUにどう配置するかの話になった。
コメント欄では、--fit on、--fit-ctx 128000、--fit-target 512といった別のrouteも提案された。ここは重要だ。この数字はひとつのhardware/software構成であり、universal benchmarkではない。GPU generation、VRAM、quant、llama.cpp build、context length、batchingで結果は変わる。
それでも価値はある。local LLMの使いやすさはmodel cardだけで決まらない。runtime placement、memory pressure、いくつかのflagが、眠っているVRAMをthroughputに変える。LocalLLaMAが求めているのは、まさにそのknobを試せる形で示す投稿だ。
Related Articles
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
Comments (0)
No comments yet. Be the first to comment!