Qwen 3.6 27B量子化比較、LocalLLaMAはQ4_K_M推し でも検証方法で議論

Original: Qwen 3.6 27B BF16 vs Q4_K_M vs Q8_0 GGUF evaluation View original →

Read in other languages: 한국어English
LLM Apr 29, 2026 By Insights AI (Reddit) 1 min read Source

この投稿がLocalLLaMAですぐ伸びた理由は分かりやすい。よくある「自分の環境では速い」という感想ではなく、Qwen 3.6 27Bの量子化版を横並びで比べたからだ。投稿者はllama-cpp-python上でBF16、Q4_K_M、Q8_0 GGUFをHumanEval、HellaSwag、BFCLで測定し、精度だけでなく速度とメモリ使用量までまとめて出した。サブレがずっと求めていた種類のデータだ。

表面的な結論はかなり実務的だった。BF16は平均精度69.78%で最も高かったが、ピークRAMは54GB、速度は15.5 tok/sだった。Q4_K_Mは平均66.54%まで下がる一方、BFCLはほぼ維持し、速度は22.5 tok/s、ピークRAMは28GBまで下がった。モデルファイルもかなり小さい。Q8_0はHumanEvalだけ見ればQ4_K_Mよりやや上だったが、この実験では全体速度、メモリ、HellaSwagまで含めると決め手に欠けた。そこで多くの読者は、現実の運用ならQ4_K_Mがいちばん収まりがいいのではないかと受け取った。

面白いのは、称賛がすぐ検証論争に変わったことだ。最上位コメントは「こういう比較をもっと見たい」と歓迎したが、その次の波では誤差範囲がないこと、KVキャッシュ量子化の設定が何だったのか、なぜQ8_0が一部テストでQ4_K_Mに負けるのかといった厳しい質問が続いた。さらに、HumanEvalの数字自体がQwen 3.6 27Bとしては低すぎるのではないかという指摘も出て、量子化の差だけでなく評価セットアップ全体が結果を左右した可能性が話題になった。

それでもこの投稿の価値は明確だ。LocalLLaMAが欲しがっているのは、大きな宣言ではなく、こういう配布形態ごとの比較だからだ。今すぐ使える読みは、RAMと速度を重視する人にとってQ4_K_Mがかなり魅力的だということ。もうひとつの読みは、ローカルベンチマークが議論を終わらせたいなら、結果だけでなく方法の公開ももっと厳密である必要があるということだ。

Share: Long

Related Articles

LLM Reddit Apr 14, 2026 1 min read

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.