Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸
Original: Qwen 3.6 27B vs Gemma 4 31B - making Packman game! View original →
この投稿がLocalLLaMAで広がった理由は、単なる速度比較では終わらなかったからだ。投稿者はMacBook Pro M5 Max 64GB上で、2つのlocal modelにPac-Man風ゲームを単一のHTMLファイルとして最後まで生成させた。しかも条件はかなり厳しい。手続き生成の21×21迷路、4体のghostの挙動、モバイルとキーボード操作、localStorageでのハイスコア保存、requestAnimationFrameによるループ、particle効果、行き止まりやunreachable pellet、フリーズの回避まで一度に要求している。
数字だけを見るとQwen 3.6 27Bの方が速い。32 tokens/secで33,946トークン、所要18分04秒。一方のGemma 4 31Bは27 tokens/secで6,209トークン、3分51秒だった。ところが投稿者の評価は逆方向に振れた。Qwenは長くて見た目も派手だったが、Gemmaはより短く、壁との衝突やghostとの相互作用、クリック反応、particle効果などゲームロジックを崩さずまとめたという。このone-shot勝負ではGemmaが明確な勝者だった、という結論だ。
コメント欄も、その差を単純なベンチマークとしては扱わなかった。上位コメントの1つは「性能は安定していて、バグがないこと」といった条件が入っている時点で面白いと言い、別のコメントは、こうした曖昧さを残したpromptではPac-Manをどれだけ“知っているか”を見るbenchmaxxing寄りのテストだと指摘した。さらに別ユーザーは、もっと緩いpromptでQwenを回すとかなり違う見た目になったと報告し、prompt設計そのものが結果を大きく動かすことを示した。
だから注目点はGemmaが勝ったという一点ではない。local LLMをagent寄りの仕事で見るとき、tokens/secや総トークン数だけでは足りず、完成度、破綻の少なさ、インタラクション品質が別の評価軸として立ち上がる。その変化を、このPac-Man比較はかなりわかりやすく見せた。LocalLLaMAが食いついたのも、まさにそのズレだった。
Source: Reddit discussion
Related Articles
HNの論点は、local LLMがfrontier modelを完全に置き換えるかではなかった。Gemma、Qwen、agentic coding、メモリ制約、コスト、privacyをどう組み合わせるかに議論が集まった。
LocalLLaMAで注目されたのは、小さく見えるvLLM nightlyのparser修正だ。Qwen3.6-27Bのmid-turn停止やstreaming tool call失敗は、local agent loopでは実害が大きい。
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。