LocalLLaMAで議論: Gemma 4 31B の FoodTruck Bench 上位進出

Original: Gemma 4 31B beats several frontier models on the FoodTruck Bench View original →

Read in other languages: 한국어English
LLM Apr 5, 2026 By Insights AI (Reddit) 1 min read Source

2026年4月4日、LocalLLaMA のスレッドが約277の upvote を集め、Gemma 4 31B の予想外に強い FoodTruck Bench 成績が話題になった。元投稿は、Gemma 4 31B が 3 位に入り、GLM 5、Qwen 3.5 397B、Claude Sonnet 系を上回ったと主張していた。FoodTruck Bench は一般的な coding benchmark や knowledge benchmark とは異なり、AI agent が不確実性のある 30 日間の food truck 経営をどれだけ一貫して回せるかを見る。

公式 leaderboard も、少なくとも順位の核は裏づけている。2026年4月5日時点で FoodTruck Bench は Gemma 4 31B を median net worth 24,878ドルで 3 位に掲載しており、上にいるのは Claude Opus 4.6 と GPT-5.2 だけだった。サイトの methodology では、各モデルを同一条件で 5 回走らせ、median run を公開すると説明している。30 日のシミュレーションでは価格設定、在庫、スタッフ、立地、tool use を横断して判断するため、この順位は一発の正答率よりも、継続的な multi-step decision-making を測っている。

だからこそ、この話は local model の利用者に刺さった。31B 級の open model がこうした benchmark で上位に入るなら、小さめの重みでも短い prompt だけでなく長い agent loop で実用性が出始めている可能性があるからだ。元投稿者も、Gemma が複数日にまたがる計画を保ちやすい点を強調していた。現場の local-LLM ユーザーが見ているのは、まさにその持続性である。繰り返し tool を呼び、遅れて結果が返り、自分のメモが積み上がる状況で coherence を保てるかどうかだ。

もっとも、コメント欄は単純な称賛一色ではなかった。FoodTruck Bench の堅牢性、public leaderboard に対する benchmaxxing、contamination の可能性を疑う声が目立った。この懐疑はむしろ重要な文脈だ。現時点の結論は、Gemma 4 31B が agentic reasoning を完全に解いたということではない。むしろ、open 31B model が経済的意思決定と state carry-over を含む benchmark で、無視できない結果を出したというシグナルである。local agent を作る側にとっては、それだけでも本格的に試す理由になる。

  • FoodTruck Bench は 30 日間の事業運営判断を評価し、単発の QA や coding benchmark とは性格が違う。
  • 2026年4月5日時点で Gemma 4 31B は公式 leaderboard で median net worth 24,878ドルの 3 位だった。
  • Reddit の議論は open model の進歩への期待と、benchmark gaming への懐疑が同時に出たケースだった。
Share: Long

Related Articles

LLM sources.twitter 2d ago 1 min read

Googleは2026年4月2日、Gemma 4を自社で最も強力なopen model familyだと発表し、Gemini 3と同じ技術基盤から構築されたと説明した。GoogleはE2B、E4B、26B MoE、31B Denseを用意し、function-calling、structured JSON output、最大256K context、Apache 2.0 licenseを提供するとしている。

LLM Reddit 5h ago 1 min read

RedditではGoogleのGemma 4 edge展開が注目され、on-device Agent SkillsとLiteRT-LM runtimeが話題になった。1.5GB未満のmemory、128K context、Raspberry Pi 5とQualcomm NPUのbenchmarkが主要ポイントだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.