LocalLLaMA 사용자, Gemma 4 26B A3B가 로컬 tool calling을 안정적으로 만든다고 평가
Original: Gemma 4 26b A3B is mindblowingly good , if configured right View original →
인기를 끈 LocalLLaMA 게시물은 정교한 benchmark 표보다, 실제로 로컬 agent를 매일 써보려는 사용자의 실전 보고서처럼 읽힌다는 점에서 반응을 얻고 있다. 작성자는 RTX 3090과 LM Studio 환경에서 여러 모델과 quant를 며칠간 테스트했는데, 로컬 모델 사용자들이 가장 민감하게 보는 실패 패턴을 반복해서 만났다고 썼다. tool calling loop, function calling 불안정, conversation이 커질수록 심해지는 prompt caching slowdown이 대표적이다.
글의 핵심 주장은 Gemma 4 26B A3B가 설정을 잘 맞추면 이 지점에서 다르게 보인다는 것이다. 작성자에 따르면 flash attention과 q4 계열 quant를 쓰자 긴 context에서도 성능이 유지됐고, 사용 중인 스택에서 prompt caching도 안정적으로 동작했으며, function calling 역시 더 이상 쉽게 무너지지 않았다. 선호 설정으로는 Unsloth q3k_m quant, temperature 1, top-k 40, 그리고 별도의 custom system prompt가 제시됐다.
가장 구체적인 부분은 역시 hardware와 workflow 이야기다. 작성자는 80~110 tokens/s 정도를 봤다고 했고, 24 GB RTX 3090에서 최대 260k context까지 밀 수 있었다고 주장했다. 또 OpenCode와 연결해 약 6시간 동안 2.7 GB 규모의 repository 구조를 읽고 설명하게 했는데, 그 과정이 꽤 안정적이었다고 적었다. 반면 VRAM 요구량은 여전히 무겁고, 16 GB 카드도 일부 작업은 가능하겠지만 agentic workflow나 tool calling에는 큰 working context가 중요하다고 덧붙였다.
이 글이 눈에 띄는 이유
- leaderboard 성적보다 stability와 workflow 적합성을 이야기한다.
- base model만큼 runtime stack과 quantization 선택이 중요하다는 점을 드러낸다.
- 핵심 주장은 실용적이다. 로컬 repo 탐색과 tool use가 계속 쓸 만큼 안정적이었다는 것이다.
물론 이것은 controlled evaluation이 아니라 community report다. 숫자와 인상은 설정에 따라 크게 달라질 수 있다. 그럼에도 이 글의 반응은 로컬 LLM 사용자의 기대가 어디로 이동하는지 보여준다. 사람들은 이제 추상적인 benchmark 승리보다, 긴 세션을 버티고 tool을 제대로 호출하며, 이미 가진 하드웨어 위에서 실제 repository를 읽어낼 수 있는 모델을 원한다.
Related Articles
LocalLLaMA가 이 글을 반긴 이유는 'Gemma 4가 왠지 약하다'로 끝나지 않았기 때문이다. nullable JSON Schema가 빈 type 필드로 납작해지는 구체적 실패 지점을 잡아냈고, 작은 Jinja 수정으로 tool calling이 다시 살아났다.
상세한 `r/LocalLLaMA` 벤치마크는 `Gemma 4 31B`에 `Gemma 4 E2B` 초안 모델을 붙인 `llama.cpp` 구성에서 평균 처리량이 `57.17 t/s`에서 `73.73 t/s`로 올랐다고 보고했다.
Claude Opus 4.8의 강점이 코딩 벤치마크를 넘어 실제 업무형 에이전트 평가로 확장됐다. Artificial Analysis는 max effort 기준 1890점을 기록해 GPT-5.5 xhigh보다 121점 앞섰다고 밝혔다.
Comments (0)
No comments yet. Be the first to comment!