Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った

Community Spark

r/LocalLLaMA threadは、local tool callingは本当に使われているのか、それとも集団的な冗談なのかという率直な問いで伸びた。投稿者はOpen WebUI、Docker上のTerminal、LM Studio経由のmodelsという構成で、Qwen3.5 27B/35B、Gemma4 26B、Qwen3.6 35B、GPT-OSS 20Bを試したが、単純なfile creationでも失敗、空ファイルを成功扱い、executing loopが起きたと説明した。

コミュニティが最初に疑ったもの

有用な返信は「local modelsは弱い」で終わらなかった。複数のuserがOpenWebUIをweak linkとして挙げ、OpenCode、VSCodeのCline、llama.cpp、LM Studio runtimeではより良い結果が出ると述べた。OpenWebUIはchat用途には十分でも、native tool-call fieldsやreasoning fieldを期待する新しいmodelsでは扱いが弱いという指摘もあった。

debug checklist

threadから見えた変数は具体的だ。tool useを試すならaggressive quantを避ける、native tool callingが有効か確認する、reasoningが期待されるAPI fieldで返っているかを見る、tool schemaがmodelの想定と合っているかを検証する。さらに、asynchronous shell commandsは同じmodelでもwrapper次第で混乱を招くという経験談もあった。

なぜ重要か

local agentsはmodel leaderboardとして語られがちだが、このthreadはstack全体がproductだと示している。QwenやGemmaのmodelが強くても、UI wrapperがtool-call JSONを壊したりreasoningを誤処理したりすれば、ユーザーはhallucinated file writeやstuck executionに遭遇する。実務ではmodel、quant、server、runtime、wrapper、tool mode、taskをまとめて記録しないと、比較はほとんど意味を持たない。

Source: r/LocalLLaMA discussion.

LLM Reddit May 22, 2026 1 min read

Qwen3.6 35BがスキルベースプロンプティングでワークフローCreate

LocalLLaMAで話題になったポストで、Qwen3.6 35B A3BがCodexとpiエージェントを組み合わせたスキルベースプロンプティングにより、VPS管理やPDF変換などの複雑なワークフローを自動化した体験が共有されました。

#qwen #local-llm #workflow

LLM Reddit May 22, 2026 1 min read

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

#llama-cpp #qwen #local-llm

LLM Reddit Apr 7, 2026 1 min read

LocalLLaMAユーザー、Gemma 4 26B A3Bでローカル tool calling が安定したと報告

約350ポイントを集めたLocalLLaMA投稿は、Gemma 4 26B A3Bが適切なruntime設定と組み合わさると、ローカルのcoding-agentやtool-calling workflowで非常に強く感じられると主張している。投稿者は他のローカルモデル環境で経験したprompt cachingやfunction callingの問題と対比して語っている。

#gemma-4 #local-llm #tool-calling