Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸
Original: Qwen 3.6 27B vs Gemma 4 31B - making Packman game! View original →
この投稿がLocalLLaMAで広がった理由は、単なる速度比較では終わらなかったからだ。投稿者はMacBook Pro M5 Max 64GB上で、2つのlocal modelにPac-Man風ゲームを単一のHTMLファイルとして最後まで生成させた。しかも条件はかなり厳しい。手続き生成の21×21迷路、4体のghostの挙動、モバイルとキーボード操作、localStorageでのハイスコア保存、requestAnimationFrameによるループ、particle効果、行き止まりやunreachable pellet、フリーズの回避まで一度に要求している。
数字だけを見るとQwen 3.6 27Bの方が速い。32 tokens/secで33,946トークン、所要18分04秒。一方のGemma 4 31Bは27 tokens/secで6,209トークン、3分51秒だった。ところが投稿者の評価は逆方向に振れた。Qwenは長くて見た目も派手だったが、Gemmaはより短く、壁との衝突やghostとの相互作用、クリック反応、particle効果などゲームロジックを崩さずまとめたという。このone-shot勝負ではGemmaが明確な勝者だった、という結論だ。
コメント欄も、その差を単純なベンチマークとしては扱わなかった。上位コメントの1つは「性能は安定していて、バグがないこと」といった条件が入っている時点で面白いと言い、別のコメントは、こうした曖昧さを残したpromptではPac-Manをどれだけ“知っているか”を見るbenchmaxxing寄りのテストだと指摘した。さらに別ユーザーは、もっと緩いpromptでQwenを回すとかなり違う見た目になったと報告し、prompt設計そのものが結果を大きく動かすことを示した。
だから注目点はGemmaが勝ったという一点ではない。local LLMをagent寄りの仕事で見るとき、tokens/secや総トークン数だけでは足りず、完成度、破綻の少なさ、インタラクション品質が別の評価軸として立ち上がる。その変化を、このPac-Man比較はかなりわかりやすく見せた。LocalLLaMAが食いついたのも、まさにそのズレだった。
Source: Reddit discussion
Related Articles
r/LocalLLaMAのMacBook Air M5 benchmarkは、Qwen 3.6 35B-A3Bの89.6% HumanEval+だけでなく、RAMとtok/sを一緒に見る実用的な視点を出した。
27BモデルがSonnet 4.6に並んだという話でLocalLLaMAは沸いたが、議論はすぐベンチ最適化と実運用条件の確認に移った。
LocalLLaMAが反応したのは単なる数値比較ではなかった。多くのローカル推論ユーザーが事実上の常識として使っていたルールを崩し、とくにGemma系でモデル差が大きいことを示したからだ。2026年4月25日時点でスレッドは324ポイント、58コメントだった。
Comments (0)
No comments yet. Be the first to comment!