Gemma 4와 Qwen 3.5를 블라인드로 비교한 LocalLLaMA 실험, “승률과 평균점수가 갈렸다”

Original: Gemma 4 31B vs Gemma 4 26B-A4B vs Qwen 3.5 27B — 30-question blind eval with Claude Opus 4.6 as judge View original →

Read in other languages: English日本語
LLM Apr 5, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA의 새 비교 글은 Gemma 4 31B, Gemma 4 26B-A4B, Qwen 3.5 27B를 30개의 blind prompts로 맞붙였다. 작성자는 code, reasoning, analysis, communication, meta-alignment 다섯 category에 각 6문항을 넣고, prompt와 temperature를 통일한 뒤 Claude Opus 4.6을 structured judge로 사용했다. judge 선택에 대한 이견은 있을 수 있지만, 이 글이 useful한 이유는 single leaderboard 숫자 대신 win rate, average score, reliability, category별 강점을 따로 분리해서 보여주기 때문이다.

결과는 headline 하나로 정리되지 않는다. win count만 보면 Qwen 3.5 27B가 14승으로 가장 앞섰고, Gemma 4 31B가 12승, Gemma 4 26B-A4B가 4승이었다. 하지만 average score는 Gemma 두 모델이 모두 8.82였고, Qwen은 세 번의 0.0 failure 때문에 8.17에 머물렀다. 작성자는 format failure 또는 refusal로 보이는 이 세 사례를 제외하면 Qwen의 adjusted average가 약 9.08까지 올라갈 수 있다고 적는다. 즉 Qwen은 ceiling이 높아 보이지만, Gemma는 chosen setup에서 더 steady하게 보인다.

category breakdown도 흥미롭다. reasoning과 analysis는 Qwen이 우세했고, communication은 Gemma 4 31B가 앞섰으며, code는 사실상 무승부였다. 26B-A4B MoE variant는 두 번 error를 냈지만 동작할 때는 31B dense와 같은 평균점수를 기록했다. 또 Qwen은 응답당 3배에서 5배 더 많은 tokens를 생성했다고 한다. local deployment 관점에서는 peak quality만이 아니라 verbosity tax와 reliability cost도 함께 계산해야 한다는 뜻이다.

댓글에서는 곧바로 methodology caveat가 제기됐다. LLM-as-judge bias, llama.cpp build regression, quantization choice, sample size 문제가 대표적이다. 작성자도 본문에서 비슷한 한계를 먼저 인정한다. 바로 그 점이 이 비교를 흥미롭게 만든다. 2026년의 local model 평가는 더 이상 하나의 definitive benchmark로 끝나지 않는다. 대신 community는 reliability, latency, output shape, runtime stability, practical usefulness를 함께 보는 작지만 빠른 실험들을 통해 감각을 쌓아가고 있다.

Share: Long

Related Articles

LLM Reddit Mar 14, 2026 1 min read

최근 r/LocalLLaMA 벤치마크 글은 Apple Silicon에서 MLX와 llama.cpp를 비교할 때 단순 tok/s 화면만 보면 중요한 차이를 놓칠 수 있다고 지적했다. MLX는 짧은 context의 generation에서는 여전히 빠르지만, 긴 context workload에서는 prefill이 전체 지연 시간을 지배해 체감 속도 우위가 크게 줄어들 수 있다.

LLM Reddit 1d ago 1 min read

`r/LocalLLaMA`의 benchmark post는 TurboQuant KV cache compression으로 RTX 5090 한 장에서 Gemma 4 31B를 256K context까지 밀어올렸다고 주장한다. 속도 수치와 함께 VRAM 사용량, Windows/MSVC build fix, KV quant 품질 우려까지 같이 제시된 점이 눈에 띈다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.