LocalLLaMAユーザー、Gemma 4 26B A3Bでローカル tool calling が安定したと報告

注目を集めているLocalLLaMAの投稿は、整ったbenchmark表というより、ローカルagentを日常的に使おうとする実務ユーザーの現場レポートとして読まれている。投稿者はRTX 3090とLM Studio環境で複数のモデルやquantを数日試したが、ローカルモデルでありがちな失敗、つまりtool callingのloop、function callingの不安定さ、conversationが大きくなるにつれて悪化するprompt caching slowdownに悩まされたと書いている。

そのうえで、Gemma 4 26B A3Bは設定を詰めると違って見えたという。投稿によれば、flash attentionとq4系のquantを組み合わせることで長いcontextでも持ちこたえ、使っていたstackではprompt cachingも安定し、function callingも壊れにくくなった。好みの設定として、Unsloth q3k_m quant、temperature 1、top-k 40、さらにcustom system promptが挙げられている。

最も具体的なのはhardwareとworkflowの記述だ。投稿者は80〜110 tokens/s程度を見たとし、24 GBのRTX 3090なら最大260k context近くまで押し込めたと主張する。さらにOpenCodeと組み合わせ、約6時間かけて2.7 GB規模のrepositoryを読ませて構造を説明させても、かなり安定していたという。一方でVRAM消費は依然として重く、16 GB級カードでも一部用途は可能だとしても、agentic workflowやtool callingでは大きなworking contextが重要だとも述べている。

この投稿が目立つ理由

leaderboard順位ではなく、stabilityとworkflow適合性を中心に語っている。
base modelそのものと同じくらい、runtime stackやquantization選択が重要だと示している。
最も強い主張は実用面にある。ローカルのrepo navigationとtool useが継続利用できるほど安定したという点だ。

もちろん、これはcontrolled evaluationではなくcommunity reportであり、数値や印象は設定依存だ。それでも反応の大きさは、ローカルLLMに求められる価値が変わってきたことを示している。人々が欲しているのは抽象的なbenchmark勝利よりも、長いセッションを耐え、toolを正しく呼び、手元のhardwareで実在のrepositoryを扱えるモデルだ。

LocalLLaMAユーザー、Gemma 4 26B A3Bでローカル tool calling が安定したと報告

この投稿が目立つ理由

Related Articles

LocalLLaMAベンチマーク: Gemma 4のspeculative decodingで平均29%高速化を報告

Gemma 4のtool callingが崩れた理由、LocalLLaMAが突き止めた小さなJinjaバグ

Opus 4.8、GDPval-AAでGPT-5.5を121点上回る外部評価

Comments (0)

Leave a Comment