Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった
Original: RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part. View original →
r/LocalLLaMA postは、Qwen3.6-35B-A3Bのtuningを、communityが最も好む形で見せた。hardware、flag、tokens per secondだ。投稿者はRTX 5070 Ti 16GB、Ryzen 9800X3D、32GB DDR5、llama.cpp b8829、unsloth/Qwen3.6-35B-A3B-GGUFのUD-Q4_K_Mを使い、128K contextで約79 t/sを出したという。
焦点は--cpu-moeと--n-cpu-moe Nの違いだった。投稿によれば、一般的な--cpu-moeはMoE expertsをすべてCPUに寄せ、GPU memoryをあまり使わない。baselineはgeneration 51.2 t/s、prompt 87.9 t/s、VRAM 3.5GBだった。--n-cpu-moe 20ではgeneration 78.7 t/s、prompt 100.6 t/s、VRAM 12.7GBまで上がった。
さらに-np 1と128K contextを足した構成では、generation 79.3 t/s、prompt 135.8 t/s、VRAM 13.2GBが示された。投稿者はnaiveな--cpu-moe比で約54%速いとまとめた。だからthreadは、Qwen3.6の熱狂というより、sparse MoE layerをCPUとGPUにどう配置するかの話になった。
コメント欄では、--fit on、--fit-ctx 128000、--fit-target 512といった別のrouteも提案された。ここは重要だ。この数字はひとつのhardware/software構成であり、universal benchmarkではない。GPU generation、VRAM、quant、llama.cpp build、context length、batchingで結果は変わる。
それでも価値はある。local LLMの使いやすさはmodel cardだけで決まらない。runtime placement、memory pressure、いくつかのflagが、眠っているVRAMをthroughputに変える。LocalLLaMAが求めているのは、まさにそのknobを試せる形で示す投稿だ。
Related Articles
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。
Comments (0)
No comments yet. Be the first to comment!