Gemma 4 と Qwen 3.5 のブラインド比較が LocalLLaMA で話題、「勝率」と「平均点」が分かれる

LocalLLaMA の新しい比較投稿は、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27B を 30 個の blind prompts で比べている。投稿者は code、reasoning、analysis、communication、meta-alignment の 5 categories に各 6 問を置き、prompt と temperature を揃え、Claude Opus 4.6 を structured judge として使った。judge の選択自体には議論の余地があるが、この投稿が useful なのは、一つの headline number に潰さず、win rate、average score、reliability、category ごとの強みを分けて見せている点だ。

結果は単純な winner-takes-all ではない。win count だけを見ると Qwen 3.5 27B が 14 勝で先行し、Gemma 4 31B が 12 勝、Gemma 4 26B-A4B が 4 勝だった。だが average score は Gemma の 2 models がともに 8.82 で、Qwen は 3 回の 0.0 failure のため 8.17 にとどまった。投稿者は、この format failure や refusal と見られる 3 件を除けば、Qwen の adjusted average は約 9.08 まで上がると書いている。つまり Qwen は ceiling が高そうだが、Gemma はこの setup ではより steady に見える。

category breakdown も示唆的だ。reasoning と analysis は Qwen が優勢で、communication は Gemma 4 31B が強く、code はほぼ tie だった。26B-A4B の MoE variant は 2 回 error を出したが、動作したケースでは dense の 31B と同じ平均点を記録した。また Qwen は 1 response あたり 3 倍から 5 倍の token を生成したという。local deployment を考えるなら、peak quality だけでなく verbosity tax と reliability cost も合わせて見なければならない、ということだ。

comments ではすぐに methodology caveat が指摘された。LLM-as-judge bias、llama.cpp build regression、quantization choice、sample size などが代表的だ。投稿者自身も本文で同じ限界を先に認めている。まさにその点がこの比較を面白くしている。2026 年の local model evaluation は、一つの definitive benchmark に収束するよりも、reliability、latency、output shape、runtime stability、practical usefulness を一緒に見る小さく速い community experiment の積み重ねへ向かっている。

Gemma 4 と Qwen 3.5 のブラインド比較が LocalLLaMA で話題、「勝率」と「平均点」が分かれる

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証

LocalLLaMAベンチマーク、Gemma 4 speculative decodingで平均29%高速化

GLM-5.2、open weightsの争点を順位からreasoning効率へ

Related Articles

r/LocalLLaMA、M1 Maxでの MLX と llama.cpp の実効レイテンシ差を検証
LLM Reddit Mar 14, 2026 1 min read

LocalLLaMAベンチマーク、Gemma 4 speculative decodingで平均29%高速化
LLM Reddit Apr 12, 2026 1 min read

GLM-5.2、open weightsの争点を順位からreasoning効率へ
LLM Hacker News Jun 18, 2026 1 min read