Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

この投稿がLocalLLaMAで広がった理由は、単なる速度比較では終わらなかったからだ。投稿者はMacBook Pro M5 Max 64GB上で、2つのlocal modelにPac-Man風ゲームを単一のHTMLファイルとして最後まで生成させた。しかも条件はかなり厳しい。手続き生成の21×21迷路、4体のghostの挙動、モバイルとキーボード操作、localStorageでのハイスコア保存、requestAnimationFrameによるループ、particle効果、行き止まりやunreachable pellet、フリーズの回避まで一度に要求している。

数字だけを見るとQwen 3.6 27Bの方が速い。32 tokens/secで33,946トークン、所要18分04秒。一方のGemma 4 31Bは27 tokens/secで6,209トークン、3分51秒だった。ところが投稿者の評価は逆方向に振れた。Qwenは長くて見た目も派手だったが、Gemmaはより短く、壁との衝突やghostとの相互作用、クリック反応、particle効果などゲームロジックを崩さずまとめたという。このone-shot勝負ではGemmaが明確な勝者だった、という結論だ。

コメント欄も、その差を単純なベンチマークとしては扱わなかった。上位コメントの1つは「性能は安定していて、バグがないこと」といった条件が入っている時点で面白いと言い、別のコメントは、こうした曖昧さを残したpromptではPac-Manをどれだけ“知っているか”を見るbenchmaxxing寄りのテストだと指摘した。さらに別ユーザーは、もっと緩いpromptでQwenを回すとかなり違う見た目になったと報告し、prompt設計そのものが結果を大きく動かすことを示した。

だから注目点はGemmaが勝ったという一点ではない。local LLMをagent寄りの仕事で見るとき、tokens/secや総トークン数だけでは足りず、完成度、破綻の少なさ、インタラクション品質が別の評価軸として立ち上がる。その変化を、このPac-Man比較はかなりわかりやすく見せた。LocalLLaMAが食いついたのも、まさにそのズレだった。

Source: Reddit discussion

Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

Related Articles

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値

ローカルモデル、趣味の実行環境からcoding workflowへ

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業

Related Articles

MacBook Air M5でlocal coding LLM 21個比較、LocalLLaMAが欲しかった実測値
LLM Reddit Apr 23, 2026 1 min read

ローカルモデル、趣味の実行環境からcoding workflowへ
LLM Hacker News Jun 16, 2026 1 min read

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業
LLM Reddit Jul 24, 2026 1 min read