LocalLLaMAユーザー、Gemma 4 26B A3Bでローカル tool calling が安定したと報告
Original: Gemma 4 26b A3B is mindblowingly good , if configured right View original →
注目を集めているLocalLLaMAの投稿は、整ったbenchmark表というより、ローカルagentを日常的に使おうとする実務ユーザーの現場レポートとして読まれている。投稿者はRTX 3090とLM Studio環境で複数のモデルやquantを数日試したが、ローカルモデルでありがちな失敗、つまりtool callingのloop、function callingの不安定さ、conversationが大きくなるにつれて悪化するprompt caching slowdownに悩まされたと書いている。
そのうえで、Gemma 4 26B A3Bは設定を詰めると違って見えたという。投稿によれば、flash attentionとq4系のquantを組み合わせることで長いcontextでも持ちこたえ、使っていたstackではprompt cachingも安定し、function callingも壊れにくくなった。好みの設定として、Unsloth q3k_m quant、temperature 1、top-k 40、さらにcustom system promptが挙げられている。
最も具体的なのはhardwareとworkflowの記述だ。投稿者は80〜110 tokens/s程度を見たとし、24 GBのRTX 3090なら最大260k context近くまで押し込めたと主張する。さらにOpenCodeと組み合わせ、約6時間かけて2.7 GB規模のrepositoryを読ませて構造を説明させても、かなり安定していたという。一方でVRAM消費は依然として重く、16 GB級カードでも一部用途は可能だとしても、agentic workflowやtool callingでは大きなworking contextが重要だとも述べている。
この投稿が目立つ理由
- leaderboard順位ではなく、stabilityとworkflow適合性を中心に語っている。
- base modelそのものと同じくらい、runtime stackやquantization選択が重要だと示している。
- 最も強い主張は実用面にある。ローカルのrepo navigationとtool useが継続利用できるほど安定したという点だ。
もちろん、これはcontrolled evaluationではなくcommunity reportであり、数値や印象は設定依存だ。それでも反応の大きさは、ローカルLLMに求められる価値が変わってきたことを示している。人々が欲しているのは抽象的なbenchmark勝利よりも、長いセッションを耐え、toolを正しく呼び、手元のhardwareで実在のrepositoryを扱えるモデルだ。
Related Articles
詳細な`r/LocalLLaMA`投稿は、`Gemma 4 31B`に`Gemma 4 E2B`のdraft modelを組み合わせた`llama.cpp`構成で平均スループットが`57.17 t/s`から`73.73 t/s`へ伸びたと報告した。
LocalLLaMAがこの投稿を評価したのは、『Gemma 4は何となく弱い』で終わらなかったからだ。nullableなJSON Schemaが空のtypeに潰れるという具体的な壊れ方を切り出し、小さなJinja修正でtool callingが戻るところまで持っていった。
Claude Opus 4.8の初期評価は、コーディングだけでなく実務型エージェント作業に広がっている。Artificial AnalysisはGDPval-AAで1890点、GPT-5.5 xhighを121点上回ったとした。
Comments (0)
No comments yet. Be the first to comment!