Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推しでも検証方法で議論

この投稿がLocalLLaMAですぐ伸びた理由は分かりやすい。よくある「自分の環境では速い」という感想ではなく、Qwen 3.6 27Bの量子化版を横並びで比べたからだ。投稿者はllama-cpp-python上でBF16、Q4_K_M、Q8_0 GGUFをHumanEval、HellaSwag、BFCLで測定し、精度だけでなく速度とメモリ使用量までまとめて出した。サブレがずっと求めていた種類のデータだ。

表面的な結論はかなり実務的だった。BF16は平均精度69.78%で最も高かったが、ピークRAMは54GB、速度は15.5 tok/sだった。Q4_K_Mは平均66.54%まで下がる一方、BFCLはほぼ維持し、速度は22.5 tok/s、ピークRAMは28GBまで下がった。モデルファイルもかなり小さい。Q8_0はHumanEvalだけ見ればQ4_K_Mよりやや上だったが、この実験では全体速度、メモリ、HellaSwagまで含めると決め手に欠けた。そこで多くの読者は、現実の運用ならQ4_K_Mがいちばん収まりがいいのではないかと受け取った。

面白いのは、称賛がすぐ検証論争に変わったことだ。最上位コメントは「こういう比較をもっと見たい」と歓迎したが、その次の波では誤差範囲がないこと、KVキャッシュ量子化の設定が何だったのか、なぜQ8_0が一部テストでQ4_K_Mに負けるのかといった厳しい質問が続いた。さらに、HumanEvalの数字自体がQwen 3.6 27Bとしては低すぎるのではないかという指摘も出て、量子化の差だけでなく評価セットアップ全体が結果を左右した可能性が話題になった。

それでもこの投稿の価値は明確だ。LocalLLaMAが欲しがっているのは、大きな宣言ではなく、こういう配布形態ごとの比較だからだ。今すぐ使える読みは、RAMと速度を重視する人にとってQ4_K_Mがかなり魅力的だということ。もうひとつの読みは、ローカルベンチマークが議論を終わらせたいなら、結果だけでなく方法の公開ももっと厳密である必要があるということだ。

Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推しでも検証方法で議論

Related Articles

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化

Comments (0)

Leave a Comment

Related Articles

Qwen3.5-9Bのquant選び、LocalLLaMAは雰囲気よりKLDを見たい
LLM Reddit Apr 16, 2026 1 min read

r/LocalLLaMAがQwen3.5-9B quantをKLDで並べ直す、勘ではなく分布のズレで選ぼうという話
LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMAでQwen3.5-27B Q4量子化を比較、KLDと容量のトレードオフを可視化
LLM Reddit Mar 4, 2026 1 min read