r/LocalLLaMA追試: RTX 5080 16GBではQ4_K_M + fit-nobatch構成が有力
Original: Follow-up: Qwen3.5-35B-A3B — 7 community-requested experiments on RTX 5080 16GB View original →
Reddit投稿の位置づけ
r/LocalLLaMAの追試スレッドは、クロール時点で494アップボート・139コメントを集めた。投稿者はコミュニティ要望に沿って7つの追加検証を実施し、環境をRTX 5080 16GB、Ryzen 9 9950X、128GB RAM、CUDA 12.8でビルドしたllama.cppと明示している。単発の結果共有ではなく、修正履歴や制約条件まで含めて公開している点が実務上の価値になっている。
共有された主要な観測値
投稿内では、KV cacheのq8_0設定がPPL表でほぼノイズ範囲の差に収まりつつ、速度面の利得を維持したと報告され、-ctk q8_0 -ctv q8_0推奨が継続された。さらにPPLだけでなくKL divergenceも提示され、掲載値ではQ4_K_MがUD-Q4_K_XLよりmean KLDとtop-1 token一致率で良好だった。
16GB VRAM制約で実務的に注目されたのは設定の簡素化である。投稿者は--fit onを使い、明示的なバッチ指定を外した構成で74.7 tok/sを示し、従来の手動offload設定を上回ったとしている。一方、self-speculative ngramは会話負荷で速度向上が確認できず、27B denseやMXFP4_MOEも当該環境では速度面で優位を示しにくいという整理だった。
読み解き方の注意点
これはコミュニティ実験であり、統制された大規模比較試験ではない。投稿者自身も、長文脈での挙動、ビルド差分、メモリ制約による部分評価、CUDAとVulkanなどバックエンド差を明記している。したがって普遍的な序列というより、類似ハードウェアでの初期チューニング指針として活用するのが妥当である。
ローカル推論運用への示唆
この追試が示す実務的教訓は、単一フラグの最適化よりも「設定束」で測ること、品質評価をPPL単独に依存しないこと、そして自動fit/offloadの挙動を自分のワークロードで必ず再計測することにある。特にVRAM制約下では、理論値より実測の設定相互作用が性能を左右する。
Related Articles
r/LocalLLaMAでllama.cpp GGUFのNVFP4対応PRが大きく話題化した。限られたVRAM環境でのメモリ効率と推論速度改善への期待が背景にある。
高評価のr/MachineLearning投稿はDavid Noel Ngの長いblog記事を再浮上させ、Qwen2-72Bの中間7-layer blockをweight変更なしで複製するだけでopen leaderboard上位に届いたという主張を改めて注目させた。
高スコアのLocalLLaMA投稿では、16GBのM1 Pro上でQwen 3.5 9Bがmemory recallと基本的なtool callingを実運用向けにこなしつつ、creative reasoningでは依然としてfrontier modelに及ばなかったと報告された。
Comments (0)
No comments yet. Be the first to comment!