LocalLLaMAユーザー、Gemma 4 26B A3Bでローカル tool calling が安定したと報告

Original: Gemma 4 26b A3B is mindblowingly good , if configured right View original →

Read in other languages: 한국어English
LLM Apr 7, 2026 By Insights AI (Reddit) 1 min read Source

注目を集めているLocalLLaMAの投稿は、整ったbenchmark表というより、ローカルagentを日常的に使おうとする実務ユーザーの現場レポートとして読まれている。投稿者はRTX 3090とLM Studio環境で複数のモデルやquantを数日試したが、ローカルモデルでありがちな失敗、つまりtool callingのloop、function callingの不安定さ、conversationが大きくなるにつれて悪化するprompt caching slowdownに悩まされたと書いている。

そのうえで、Gemma 4 26B A3Bは設定を詰めると違って見えたという。投稿によれば、flash attentionとq4系のquantを組み合わせることで長いcontextでも持ちこたえ、使っていたstackではprompt cachingも安定し、function callingも壊れにくくなった。好みの設定として、Unsloth q3k_m quant、temperature 1、top-k 40、さらにcustom system promptが挙げられている。

最も具体的なのはhardwareとworkflowの記述だ。投稿者は80〜110 tokens/s程度を見たとし、24 GBのRTX 3090なら最大260k context近くまで押し込めたと主張する。さらにOpenCodeと組み合わせ、約6時間かけて2.7 GB規模のrepositoryを読ませて構造を説明させても、かなり安定していたという。一方でVRAM消費は依然として重く、16 GB級カードでも一部用途は可能だとしても、agentic workflowやtool callingでは大きなworking contextが重要だとも述べている。

この投稿が目立つ理由

  • leaderboard順位ではなく、stabilityとworkflow適合性を中心に語っている。
  • base modelそのものと同じくらい、runtime stackやquantization選択が重要だと示している。
  • 最も強い主張は実用面にある。ローカルのrepo navigationとtool useが継続利用できるほど安定したという点だ。

もちろん、これはcontrolled evaluationではなくcommunity reportであり、数値や印象は設定依存だ。それでも反応の大きさは、ローカルLLMに求められる価値が変わってきたことを示している。人々が欲しているのは抽象的なbenchmark勝利よりも、長いセッションを耐え、toolを正しく呼び、手元のhardwareで実在のrepositoryを扱えるモデルだ。

Share: Long

Related Articles

LLM Reddit 11h ago 1 min read

LocalLLaMAで共有されたMac LLM Benchの結果は、32GBのApple Silicon環境ではdense 32B系よりMoEモデルのほうが良いlatency-to-capabilityのバランスを示す可能性があることを示した。重要なのは単一の順位表より、再現可能なbenchmark workflowそのものだ。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.