llama.cpp --fitでLocalLLaMAがVRAMの壁を再計算

r/LocalLLaMAで伸びた投稿は、llama.cppの--fit optionが予想以上に効いたという実用報告だった。投稿者は32GB VRAMなら20GB前後のmodelが限界だと思っていたが、Qwen3.6 Q8と256k contextを試し、weightsがVRAMを超える状態でも5090とOculink構成で57 tokens/sを見たという。重要なのは単一の数字ではなく、「VRAMに全部入らなければ2 t/s」という感覚が崩れたことだ。

コメント欄はすぐにtuningの話になった。あるユーザーはKV cacheをQ8_0にquantizeすれば、256k contextをより多くVRAMに収めてtoken speedをさらに上げられるかもしれないと指摘した。別のユーザーはQwen3.6 35BがMoE architectureでactive parameterが約3Bである点を挙げ、dense 27B modelでは同じ結果にならない可能性を示した。さらに、Qwen3.6 35B quantで12 t/sから48 t/sに上がったという報告もあった。

--fitはmodelごとのmanual tensor split作業を減らせる可能性がある。
KV cache format、fit target、quantization、interconnectは依然として結果を左右する。
MoEとdense modelを分けて考えないと、数字を誤って一般化しやすい。

community discussion noted that automatic placementが常に勝つわけではない。複数GPUや複数machineにまたがるbarely-fit modelでは、manual splitの方が安定するという反例も出た。それでもこのthreadの価値は大きい。local inferenceは単なるVRAM容量表ではなく、runtime placement、cache、quantizationを合わせて調整する領域になっている。小規模環境のユーザーほど、古い前提をもう一度試す理由がある。

元threadは r/LocalLLaMA にある。

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが沸いた自動チューニング、Qwen3.5-27Bが40 tok/sへ

LocalLLaMAが反応したのは、「LLMが自分のruntimeを速くする」という冗談のような仕組みに、具体的なbenchmark数字が付いていたからだ。投稿者はllm-server v2の--ai-tuneがllama-server helpをcontextとして読み、flag組み合わせを試して最速configをcacheすると説明し、Qwen3.5-27B Q4_K_Mは18.5 tok/sから40.05 tok/sへ伸びたと共有した。

#local-llm #llama-cpp #optimization

LLM Reddit 4d ago 1 min read

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

r/LocalLLaMAが反応したのは具体的な数字だ。RTX 5070 Tiで128K context、79 t/s、その鍵がllama.cppのflagに絞られた。

#qwen #llama-cpp #local-llm

llama.cpp --fitでLocalLLaMAがVRAMの壁を再計算

Related Articles

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが沸いた自動チューニング、Qwen3.5-27Bが40 tok/sへ

Qwen3.6を79 t/sにした投稿で、LocalLLaMAの主役は--n-cpu-moeになった

Comments (0)

Leave a Comment