Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推し でも検証方法で議論
Original: Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation View original →
この投稿がLocalLLaMAですぐ伸びた理由は分かりやすい。よくある「自分の環境では速い」という感想ではなく、Qwen 3.6 27Bの量子化版を横並びで比べたからだ。投稿者はllama-cpp-python上でBF16、Q4_K_M、Q8_0 GGUFをHumanEval、HellaSwag、BFCLで測定し、精度だけでなく速度とメモリ使用量までまとめて出した。サブレがずっと求めていた種類のデータだ。
表面的な結論はかなり実務的だった。BF16は平均精度69.78%で最も高かったが、ピークRAMは54GB、速度は15.5 tok/sだった。Q4_K_Mは平均66.54%まで下がる一方、BFCLはほぼ維持し、速度は22.5 tok/s、ピークRAMは28GBまで下がった。モデルファイルもかなり小さい。Q8_0はHumanEvalだけ見ればQ4_K_Mよりやや上だったが、この実験では全体速度、メモリ、HellaSwagまで含めると決め手に欠けた。そこで多くの読者は、現実の運用ならQ4_K_Mがいちばん収まりがいいのではないかと受け取った。
面白いのは、称賛がすぐ検証論争に変わったことだ。最上位コメントは「こういう比較をもっと見たい」と歓迎したが、その次の波では誤差範囲がないこと、KVキャッシュ量子化の設定が何だったのか、なぜQ8_0が一部テストでQ4_K_Mに負けるのかといった厳しい質問が続いた。さらに、HumanEvalの数字自体がQwen 3.6 27Bとしては低すぎるのではないかという指摘も出て、量子化の差だけでなく評価セットアップ全体が結果を左右した可能性が話題になった。
それでもこの投稿の価値は明確だ。LocalLLaMAが欲しがっているのは、大きな宣言ではなく、こういう配布形態ごとの比較だからだ。今すぐ使える読みは、RAMと速度を重視する人にとってQ4_K_Mがかなり魅力的だということ。もうひとつの読みは、ローカルベンチマークが議論を終わらせたいなら、結果だけでなく方法の公開ももっと厳密である必要があるということだ。
Related Articles
高評価のLocalLLaMA投稿は、Qwen3.5-27BのQ4 GGUF群をBF16基準で比較し、「忠実度優先」と「効率優先」の選択を分けて示した。
r/LocalLLaMA の投稿は、Qwen3.5-122B-A10B Uncensored (Aggressive) の GGUF release と新しい K_P quants を紹介している。0/465 refusals や zero capability loss などの数値は投稿者自身の説明であり、独立検証ではない。
r/LocalLLaMAでllama.cpp GGUFのNVFP4対応PRが大きく話題化した。限られたVRAM環境でのメモリ効率と推論速度改善への期待が背景にある。