r/LocalLLaMA追試: RTX 5080 16GBではQ4_K_M + fit-nobatch構成が有力
Original: Follow-up: Qwen3.5-35B-A3B — 7 community-requested experiments on RTX 5080 16GB View original →
Reddit投稿の位置づけ
r/LocalLLaMAの追試スレッドは、クロール時点で494アップボート・139コメントを集めた。投稿者はコミュニティ要望に沿って7つの追加検証を実施し、環境をRTX 5080 16GB、Ryzen 9 9950X、128GB RAM、CUDA 12.8でビルドしたllama.cppと明示している。単発の結果共有ではなく、修正履歴や制約条件まで含めて公開している点が実務上の価値になっている。
共有された主要な観測値
投稿内では、KV cacheのq8_0設定がPPL表でほぼノイズ範囲の差に収まりつつ、速度面の利得を維持したと報告され、-ctk q8_0 -ctv q8_0推奨が継続された。さらにPPLだけでなくKL divergenceも提示され、掲載値ではQ4_K_MがUD-Q4_K_XLよりmean KLDとtop-1 token一致率で良好だった。
16GB VRAM制約で実務的に注目されたのは設定の簡素化である。投稿者は--fit onを使い、明示的なバッチ指定を外した構成で74.7 tok/sを示し、従来の手動offload設定を上回ったとしている。一方、self-speculative ngramは会話負荷で速度向上が確認できず、27B denseやMXFP4_MOEも当該環境では速度面で優位を示しにくいという整理だった。
読み解き方の注意点
これはコミュニティ実験であり、統制された大規模比較試験ではない。投稿者自身も、長文脈での挙動、ビルド差分、メモリ制約による部分評価、CUDAとVulkanなどバックエンド差を明記している。したがって普遍的な序列というより、類似ハードウェアでの初期チューニング指針として活用するのが妥当である。
ローカル推論運用への示唆
この追試が示す実務的教訓は、単一フラグの最適化よりも「設定束」で測ること、品質評価をPPL単独に依存しないこと、そして自動fit/offloadの挙動を自分のワークロードで必ず再計測することにある。特にVRAM制約下では、理論値より実測の設定相互作用が性能を左右する。
Related Articles
r/LocalLLaMAがこの投稿を押し上げたのは、“trust me bro”な体験談の中に8-bit、64k context、OpenCode、Android debuggingという実使用条件が入っていたからだ。
LocalLLaMAがざわついたのは「新モデルが出た」からではない。RTX 5090 1枚で Qwen3.6-27B を約80 t/s、218k context で回したという具体的な数字が付いていたからだ。
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
Comments (0)
No comments yet. Be the first to comment!