Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推し でも検証方法で議論
Original: Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation View original →
この投稿がLocalLLaMAですぐ伸びた理由は分かりやすい。よくある「自分の環境では速い」という感想ではなく、Qwen 3.6 27Bの量子化版を横並びで比べたからだ。投稿者はllama-cpp-python上でBF16、Q4_K_M、Q8_0 GGUFをHumanEval、HellaSwag、BFCLで測定し、精度だけでなく速度とメモリ使用量までまとめて出した。サブレがずっと求めていた種類のデータだ。
表面的な結論はかなり実務的だった。BF16は平均精度69.78%で最も高かったが、ピークRAMは54GB、速度は15.5 tok/sだった。Q4_K_Mは平均66.54%まで下がる一方、BFCLはほぼ維持し、速度は22.5 tok/s、ピークRAMは28GBまで下がった。モデルファイルもかなり小さい。Q8_0はHumanEvalだけ見ればQ4_K_Mよりやや上だったが、この実験では全体速度、メモリ、HellaSwagまで含めると決め手に欠けた。そこで多くの読者は、現実の運用ならQ4_K_Mがいちばん収まりがいいのではないかと受け取った。
面白いのは、称賛がすぐ検証論争に変わったことだ。最上位コメントは「こういう比較をもっと見たい」と歓迎したが、その次の波では誤差範囲がないこと、KVキャッシュ量子化の設定が何だったのか、なぜQ8_0が一部テストでQ4_K_Mに負けるのかといった厳しい質問が続いた。さらに、HumanEvalの数字自体がQwen 3.6 27Bとしては低すぎるのではないかという指摘も出て、量子化の差だけでなく評価セットアップ全体が結果を左右した可能性が話題になった。
それでもこの投稿の価値は明確だ。LocalLLaMAが欲しがっているのは、大きな宣言ではなく、こういう配布形態ごとの比較だからだ。今すぐ使える読みは、RAMと速度を重視する人にとってQ4_K_Mがかなり魅力的だということ。もうひとつの読みは、ローカルベンチマークが議論を終わらせたいなら、結果だけでなく方法の公開ももっと厳密である必要があるということだ。
Related Articles
LocalLLaMAがこの投稿を評価したのは、複雑なGGUF選択を測れるtradeoffに変えたからだ。投稿はcommunity Qwen3.5-9B quantsをBF16 baselineに対するmean KLDで比較し、コメント欄はchart表現、Gemma 4、Thireus quants、long-context testingまで求めた。
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
高評価のLocalLLaMA投稿は、Qwen3.5-27BのQ4 GGUF群をBF16基準で比較し、「忠実度優先」と「効率優先」の選択を分けて示した。
Comments (0)
No comments yet. Be the first to comment!