LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

2026年4月4日、LocalLLaMA のスレッドが約277の upvote を集め、Gemma 4 31B の予想外に強い FoodTruck Bench 成績が話題になった。元投稿は、Gemma 4 31B が 3 位に入り、GLM 5、Qwen 3.5 397B、Claude Sonnet 系を上回ったと主張していた。FoodTruck Bench は一般的な coding benchmark や knowledge benchmark とは異なり、AI agent が不確実性のある 30 日間の food truck 経営をどれだけ一貫して回せるかを見る。

公式 leaderboard も、少なくとも順位の核は裏づけている。2026年4月5日時点で FoodTruck Bench は Gemma 4 31B を median net worth 24,878ドルで 3 位に掲載しており、上にいるのは Claude Opus 4.6 と GPT-5.2 だけだった。サイトの methodology では、各モデルを同一条件で 5 回走らせ、median run を公開すると説明している。30 日のシミュレーションでは価格設定、在庫、スタッフ、立地、tool use を横断して判断するため、この順位は一発の正答率よりも、継続的な multi-step decision-making を測っている。

だからこそ、この話は local model の利用者に刺さった。31B 級の open model がこうした benchmark で上位に入るなら、小さめの重みでも短い prompt だけでなく長い agent loop で実用性が出始めている可能性があるからだ。元投稿者も、Gemma が複数日にまたがる計画を保ちやすい点を強調していた。現場の local-LLM ユーザーが見ているのは、まさにその持続性である。繰り返し tool を呼び、遅れて結果が返り、自分のメモが積み上がる状況で coherence を保てるかどうかだ。

もっとも、コメント欄は単純な称賛一色ではなかった。FoodTruck Bench の堅牢性、public leaderboard に対する benchmaxxing、contamination の可能性を疑う声が目立った。この懐疑はむしろ重要な文脈だ。現時点の結論は、Gemma 4 31B が agentic reasoning を完全に解いたということではない。むしろ、open 31B model が経済的意思決定と state carry-over を含む benchmark で、無視できない結果を出したというシグナルである。local agent を作る側にとっては、それだけでも本格的に試す理由になる。

FoodTruck Bench は 30 日間の事業運営判断を評価し、単発の QA や coding benchmark とは性格が違う。
2026年4月5日時点で Gemma 4 31B は公式 leaderboard で median net worth 24,878ドルの 3 位だった。
Reddit の議論は open model の進歩への期待と、benchmark gaming への懐疑が同時に出たケースだった。

LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

Related Articles

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

Senior SWE-Bench、coding agentを「シニア」と呼べる条件

GitHub Copilot harness、5つのcoding benchでtoken効率を提示