Gemma 4 と Qwen 3.5 のブラインド比較が LocalLLaMA で話題、「勝率」と「平均点」が分かれる

Original: Gemma 4 31B vs Gemma 4 26B-A4B vs Qwen 3.5 27B — 30-question blind eval with Claude Opus 4.6 as judge View original →

Read in other languages: 한국어English
LLM Apr 5, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA の新しい比較投稿は、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27B を 30 個の blind prompts で比べている。投稿者は code、reasoning、analysis、communication、meta-alignment の 5 categories に各 6 問を置き、prompt と temperature を揃え、Claude Opus 4.6 を structured judge として使った。judge の選択自体には議論の余地があるが、この投稿が useful なのは、一つの headline number に潰さず、win rate、average score、reliability、category ごとの強みを分けて見せている点だ。

結果は単純な winner-takes-all ではない。win count だけを見ると Qwen 3.5 27B が 14 勝で先行し、Gemma 4 31B が 12 勝、Gemma 4 26B-A4B が 4 勝だった。だが average score は Gemma の 2 models がともに 8.82 で、Qwen は 3 回の 0.0 failure のため 8.17 にとどまった。投稿者は、この format failure や refusal と見られる 3 件を除けば、Qwen の adjusted average は約 9.08 まで上がると書いている。つまり Qwen は ceiling が高そうだが、Gemma はこの setup ではより steady に見える。

category breakdown も示唆的だ。reasoning と analysis は Qwen が優勢で、communication は Gemma 4 31B が強く、code はほぼ tie だった。26B-A4B の MoE variant は 2 回 error を出したが、動作したケースでは dense の 31B と同じ平均点を記録した。また Qwen は 1 response あたり 3 倍から 5 倍の token を生成したという。local deployment を考えるなら、peak quality だけでなく verbosity tax と reliability cost も合わせて見なければならない、ということだ。

comments ではすぐに methodology caveat が指摘された。LLM-as-judge bias、llama.cpp build regression、quantization choice、sample size などが代表的だ。投稿者自身も本文で同じ限界を先に認めている。まさにその点がこの比較を面白くしている。2026 年の local model evaluation は、一つの definitive benchmark に収束するよりも、reliability、latency、output shape、runtime stability、practical usefulness を一緒に見る小さく速い community experiment の積み重ねへ向かっている。

Share: Long

Related Articles

LLM Reddit Mar 14, 2026 1 min read

最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.