Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

この投稿がLocalLLaMAで広がった理由は、単なる速度比較では終わらなかったからだ。投稿者はMacBook Pro M5 Max 64GB上で、2つのlocal modelにPac-Man風ゲームを単一のHTMLファイルとして最後まで生成させた。しかも条件はかなり厳しい。手続き生成の21×21迷路、4体のghostの挙動、モバイルとキーボード操作、localStorageでのハイスコア保存、requestAnimationFrameによるループ、particle効果、行き止まりやunreachable pellet、フリーズの回避まで一度に要求している。

数字だけを見るとQwen 3.6 27Bの方が速い。32 tokens/secで33,946トークン、所要18分04秒。一方のGemma 4 31Bは27 tokens/secで6,209トークン、3分51秒だった。ところが投稿者の評価は逆方向に振れた。Qwenは長くて見た目も派手だったが、Gemmaはより短く、壁との衝突やghostとの相互作用、クリック反応、particle効果などゲームロジックを崩さずまとめたという。このone-shot勝負ではGemmaが明確な勝者だった、という結論だ。

コメント欄も、その差を単純なベンチマークとしては扱わなかった。上位コメントの1つは「性能は安定していて、バグがないこと」といった条件が入っている時点で面白いと言い、別のコメントは、こうした曖昧さを残したpromptではPac-Manをどれだけ“知っているか”を見るbenchmaxxing寄りのテストだと指摘した。さらに別ユーザーは、もっと緩いpromptでQwenを回すとかなり違う見た目になったと報告し、prompt設計そのものが結果を大きく動かすことを示した。

だから注目点はGemmaが勝ったという一点ではない。local LLMをagent寄りの仕事で見るとき、tokens/secや総トークン数だけでは足りず、完成度、破綻の少なさ、インタラクション品質が別の評価軸として立ち上がる。その変化を、このPac-Man比較はかなりわかりやすく見せた。LocalLLaMAが食いついたのも、まさにそのズレだった。

Source: Reddit discussion

Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

Related Articles

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応

Comments (0)

Leave a Comment

Related Articles

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値
LLM Reddit Apr 23, 2026 1 min read

Qwen3.6-27BがSonnet級へ? LocalLLaMAがすぐ測り方を問い直した
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。

「q8_0ならほぼ無損失」を崩したKVキャッシュ検証、LocalLLaMAの反応
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。