LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出
Original: Gemma 4 31B beats several frontier models on the FoodTruck Bench View original →
2026年4月4日、LocalLLaMA のスレッドが約277の upvote を集め、Gemma 4 31B の予想外に強い FoodTruck Bench 成績が話題になった。元投稿は、Gemma 4 31B が 3 位に入り、GLM 5、Qwen 3.5 397B、Claude Sonnet 系を上回ったと主張していた。FoodTruck Bench は一般的な coding benchmark や knowledge benchmark とは異なり、AI agent が不確実性のある 30 日間の food truck 経営をどれだけ一貫して回せるかを見る。
公式 leaderboard も、少なくとも順位の核は裏づけている。2026年4月5日時点で FoodTruck Bench は Gemma 4 31B を median net worth 24,878ドルで 3 位に掲載しており、上にいるのは Claude Opus 4.6 と GPT-5.2 だけだった。サイトの methodology では、各モデルを同一条件で 5 回走らせ、median run を公開すると説明している。30 日のシミュレーションでは価格設定、在庫、スタッフ、立地、tool use を横断して判断するため、この順位は一発の正答率よりも、継続的な multi-step decision-making を測っている。
だからこそ、この話は local model の利用者に刺さった。31B 級の open model がこうした benchmark で上位に入るなら、小さめの重みでも短い prompt だけでなく長い agent loop で実用性が出始めている可能性があるからだ。元投稿者も、Gemma が複数日にまたがる計画を保ちやすい点を強調していた。現場の local-LLM ユーザーが見ているのは、まさにその持続性である。繰り返し tool を呼び、遅れて結果が返り、自分のメモが積み上がる状況で coherence を保てるかどうかだ。
もっとも、コメント欄は単純な称賛一色ではなかった。FoodTruck Bench の堅牢性、public leaderboard に対する benchmaxxing、contamination の可能性を疑う声が目立った。この懐疑はむしろ重要な文脈だ。現時点の結論は、Gemma 4 31B が agentic reasoning を完全に解いたということではない。むしろ、open 31B model が経済的意思決定と state carry-over を含む benchmark で、無視できない結果を出したというシグナルである。local agent を作る側にとっては、それだけでも本格的に試す理由になる。
- FoodTruck Bench は 30 日間の事業運営判断を評価し、単発の QA や coding benchmark とは性格が違う。
- 2026年4月5日時点で Gemma 4 31B は公式 leaderboard で median net worth 24,878ドルの 3 位だった。
- Reddit の議論は open model の進歩への期待と、benchmark gaming への懐疑が同時に出たケースだった。
Related Articles
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
GoogleはI/O 2026でGemini 3.5 Flashを公開し、エージェントAI時代の到来を宣言した。Managed Agents APIは1回のAPI呼び出しで完全な自律実行環境を提供する。
議論の焦点は「encoder-free」が実際のモデル構造で何を意味するのかに集まった。