Gemma 4 と Qwen 3.5 のブラインド比較が LocalLLaMA で話題、「勝率」と「平均点」が分かれる
Original: Gemma 4 31B vs Gemma 4 26B-A4B vs Qwen 3.5 27B — 30-question blind eval with Claude Opus 4.6 as judge View original →
LocalLLaMA の新しい比較投稿は、Gemma 4 31B、Gemma 4 26B-A4B、Qwen 3.5 27B を 30 個の blind prompts で比べている。投稿者は code、reasoning、analysis、communication、meta-alignment の 5 categories に各 6 問を置き、prompt と temperature を揃え、Claude Opus 4.6 を structured judge として使った。judge の選択自体には議論の余地があるが、この投稿が useful なのは、一つの headline number に潰さず、win rate、average score、reliability、category ごとの強みを分けて見せている点だ。
結果は単純な winner-takes-all ではない。win count だけを見ると Qwen 3.5 27B が 14 勝で先行し、Gemma 4 31B が 12 勝、Gemma 4 26B-A4B が 4 勝だった。だが average score は Gemma の 2 models がともに 8.82 で、Qwen は 3 回の 0.0 failure のため 8.17 にとどまった。投稿者は、この format failure や refusal と見られる 3 件を除けば、Qwen の adjusted average は約 9.08 まで上がると書いている。つまり Qwen は ceiling が高そうだが、Gemma はこの setup ではより steady に見える。
category breakdown も示唆的だ。reasoning と analysis は Qwen が優勢で、communication は Gemma 4 31B が強く、code はほぼ tie だった。26B-A4B の MoE variant は 2 回 error を出したが、動作したケースでは dense の 31B と同じ平均点を記録した。また Qwen は 1 response あたり 3 倍から 5 倍の token を生成したという。local deployment を考えるなら、peak quality だけでなく verbosity tax と reliability cost も合わせて見なければならない、ということだ。
comments ではすぐに methodology caveat が指摘された。LLM-as-judge bias、llama.cpp build regression、quantization choice、sample size などが代表的だ。投稿者自身も本文で同じ限界を先に認めている。まさにその点がこの比較を面白くしている。2026 年の local model evaluation は、一つの definitive benchmark に収束するよりも、reliability、latency、output shape、runtime stability、practical usefulness を一緒に見る小さく速い community experiment の積み重ねへ向かっている。
Related Articles
r/LocalLLaMAのベンチマーク投稿では、RTX A6000 48GB、llama.cppのCUDA、32k contextという条件で、Qwen3.5 27Bが約19.7 tok/sを示し、サイズと性能のバランスが良いと評価された。
最近の r/LocalLLaMA の benchmark 投稿は、Apple Silicon 上で MLX と llama.cpp を比べるときに単純な tok/s の数字だけでは本質を見誤ると指摘した。MLX は短い context の generation では依然として速いが、長い context の workload では prefill が全体レイテンシを支配し、体感差が大きく縮む可能性がある。
LocalLLaMA では、Gemma 4 の初期トラブルの一部は model 自体ではなく llama.cpp runtime bugs や support lag に起因する可能性があるという指摘が出ている。複数の pull request と user report が、early benchmark を読み替える必要性を示している。
Comments (0)
No comments yet. Be the first to comment!