Gemma 4와 Qwen 3.5를 블라인드로 비교한 LocalLLaMA 실험, “승률과 평균점수가 갈렸다”

LocalLLaMA의 새 비교 글은 Gemma 4 31B, Gemma 4 26B-A4B, Qwen 3.5 27B를 30개의 blind prompts로 맞붙였다. 작성자는 code, reasoning, analysis, communication, meta-alignment 다섯 category에 각 6문항을 넣고, prompt와 temperature를 통일한 뒤 Claude Opus 4.6을 structured judge로 사용했다. judge 선택에 대한 이견은 있을 수 있지만, 이 글이 useful한 이유는 single leaderboard 숫자 대신 win rate, average score, reliability, category별 강점을 따로 분리해서 보여주기 때문이다.

결과는 headline 하나로 정리되지 않는다. win count만 보면 Qwen 3.5 27B가 14승으로 가장 앞섰고, Gemma 4 31B가 12승, Gemma 4 26B-A4B가 4승이었다. 하지만 average score는 Gemma 두 모델이 모두 8.82였고, Qwen은 세 번의 0.0 failure 때문에 8.17에 머물렀다. 작성자는 format failure 또는 refusal로 보이는 이 세 사례를 제외하면 Qwen의 adjusted average가 약 9.08까지 올라갈 수 있다고 적는다. 즉 Qwen은 ceiling이 높아 보이지만, Gemma는 chosen setup에서 더 steady하게 보인다.

category breakdown도 흥미롭다. reasoning과 analysis는 Qwen이 우세했고, communication은 Gemma 4 31B가 앞섰으며, code는 사실상 무승부였다. 26B-A4B MoE variant는 두 번 error를 냈지만 동작할 때는 31B dense와 같은 평균점수를 기록했다. 또 Qwen은 응답당 3배에서 5배 더 많은 tokens를 생성했다고 한다. local deployment 관점에서는 peak quality만이 아니라 verbosity tax와 reliability cost도 함께 계산해야 한다는 뜻이다.

댓글에서는 곧바로 methodology caveat가 제기됐다. LLM-as-judge bias, llama.cpp build regression, quantization choice, sample size 문제가 대표적이다. 작성자도 본문에서 비슷한 한계를 먼저 인정한다. 바로 그 점이 이 비교를 흥미롭게 만든다. 2026년의 local model 평가는 더 이상 하나의 definitive benchmark로 끝나지 않는다. 대신 community는 reliability, latency, output shape, runtime stability, practical usefulness를 함께 보는 작지만 빠른 실험들을 통해 감각을 쌓아가고 있다.

Gemma 4와 Qwen 3.5를 블라인드로 비교한 LocalLLaMA 실험, “승률과 평균점수가 갈렸다”

Related Articles

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

LocalLLaMA 벤치마크, Gemma 4 31B speculative decoding 평균 29% 속도 향상 보고

r/LocalLLaMA: M1 Max에서 MLX와 llama.cpp의 실제 지연 시간 차이를 검증

Comments (0)

Leave a Comment

Related Articles

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장
벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.

LocalLLaMA 벤치마크, Gemma 4 31B speculative decoding 평균 29% 속도 향상 보고
LLM Reddit Apr 12, 2026 1 min read

r/LocalLLaMA: M1 Max에서 MLX와 llama.cpp의 실제 지연 시간 차이를 검증
LLM Reddit Mar 14, 2026 1 min read