Qwen 3.6 vs Gemma 4、Pac-Man一発勝負で見えたlocal LLMの評価軸

Original: Qwen 3.6 27B vs Gemma 4 31B - making Packman game! View original →

Read in other languages: 한국어English
LLM May 1, 2026 By Insights AI (Reddit) 1 min read Source

この投稿がLocalLLaMAで広がった理由は、単なる速度比較では終わらなかったからだ。投稿者はMacBook Pro M5 Max 64GB上で、2つのlocal modelにPac-Man風ゲームを単一のHTMLファイルとして最後まで生成させた。しかも条件はかなり厳しい。手続き生成の21×21迷路、4体のghostの挙動、モバイルとキーボード操作、localStorageでのハイスコア保存、requestAnimationFrameによるループ、particle効果、行き止まりやunreachable pellet、フリーズの回避まで一度に要求している。

数字だけを見るとQwen 3.6 27Bの方が速い。32 tokens/secで33,946トークン、所要18分04秒。一方のGemma 4 31Bは27 tokens/secで6,209トークン、3分51秒だった。ところが投稿者の評価は逆方向に振れた。Qwenは長くて見た目も派手だったが、Gemmaはより短く、壁との衝突やghostとの相互作用、クリック反応、particle効果などゲームロジックを崩さずまとめたという。このone-shot勝負ではGemmaが明確な勝者だった、という結論だ。

コメント欄も、その差を単純なベンチマークとしては扱わなかった。上位コメントの1つは「性能は安定していて、バグがないこと」といった条件が入っている時点で面白いと言い、別のコメントは、こうした曖昧さを残したpromptではPac-Manをどれだけ“知っているか”を見るbenchmaxxing寄りのテストだと指摘した。さらに別ユーザーは、もっと緩いpromptでQwenを回すとかなり違う見た目になったと報告し、prompt設計そのものが結果を大きく動かすことを示した。

だから注目点はGemmaが勝ったという一点ではない。local LLMをagent寄りの仕事で見るとき、tokens/secや総トークン数だけでは足りず、完成度、破綻の少なさ、インタラクション品質が別の評価軸として立ち上がる。その変化を、このPac-Man比較はかなりわかりやすく見せた。LocalLLaMAが食いついたのも、まさにそのズレだった。

Source: Reddit discussion

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment