LocalLLaMA 화제: Gemma 4 31B의 FoodTruck Bench 약진을 둘러싼 논쟁
Original: Gemma 4 31B beats several frontier models on the FoodTruck Bench View original →
2026년 4월 4일, LocalLLaMA 스레드가 약 277개의 upvote를 모으며 Gemma 4 31B의 예상 밖 FoodTruck Bench 성과를 화제로 만들었다. 원글의 요지는 Gemma 4 31B가 FoodTruck Bench에서 3위에 올라 GLM 5, Qwen 3.5 397B, Claude Sonnet 계열을 앞섰다는 것이다. 이 benchmark는 일반적인 coding 또는 knowledge test와 다르게, AI agent가 불확실성 속에서 30일 동안 food truck 사업을 얼마나 일관되게 운영하는지를 본다.
공식 리더보드도 핵심 순위는 뒷받침한다. 2026년 4월 5일 기준 FoodTruck Bench는 Gemma 4 31B를 median net worth 24,878달러로 3위에 올려 두었고, 위에는 Claude Opus 4.6과 GPT-5.2만 있었다. 사이트의 methodology에 따르면 각 모델은 동일한 조건에서 5번 실행되며 median run이 공개된다. 30일 시뮬레이션 동안 가격, 재고, 직원, 위치, 도구 사용을 모두 다루기 때문에 이 순위는 단발성 정답률보다 장기적인 의사결정 능력에 더 가깝다.
이 점이 local model 사용자들에게 크게 들린 이유다. 31B급 open weight 모델이 이런 유형의 benchmark에서 상위권에 오른다면, 작은 모델도 짧은 prompt 응답을 넘어서 장기적인 agent loop에서 경쟁력을 보일 수 있다는 신호가 되기 때문이다. 원글 작성자도 Gemma가 여러 날짜에 걸친 계획을 더 잘 유지하는 것 같다고 해석했다. 로컬 LLM 실무자들이 궁금해하는 것도 결국 여기에 있다. 반복적인 tool use와 지연된 결과, 자기 메모가 쌓이는 상황에서 모델이 끝까지 일관성을 유지할 수 있느냐는 문제다.
물론 댓글 반응은 단순한 환호가 아니었다. 여러 이용자는 FoodTruck Bench의 견고성, public leaderboard에 대한 benchmaxxing 가능성, contamination 위험을 지적했다. 이 회의론은 중요한 맥락이다. 지금 단계에서 결론은 “Gemma 4 31B가 agentic reasoning을 완전히 해결했다”가 아니라, open 31B 모델이 경제적 의사결정과 상태 누적을 보는 benchmark에서 무시하기 어려운 결과를 냈다는 쪽에 가깝다. 로컬 agent를 만드는 팀이라면, 적어도 직접 재현 테스트를 해볼 이유는 충분하다.
- FoodTruck Bench는 30일 동안의 사업 운영 판단을 측정하며, 단발성 QA나 coding benchmark와 성격이 다르다.
- 2026년 4월 5일 기준 Gemma 4 31B는 공식 리더보드에서 median net worth 24,878달러로 3위였다.
- Reddit 토론은 open model 진전에 대한 기대와 benchmark gaming 가능성에 대한 회의가 동시에 드러난 사례였다.
Related Articles
Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.
Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.
Comments (0)
No comments yet. Be the first to comment!