Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った

Community Spark

r/LocalLLaMA threadは、local tool callingは本当に使われているのか、それとも集団的な冗談なのかという率直な問いで伸びた。投稿者はOpen WebUI、Docker上のTerminal、LM Studio経由のmodelsという構成で、Qwen3.5 27B/35B、Gemma4 26B、Qwen3.6 35B、GPT-OSS 20Bを試したが、単純なfile creationでも失敗、空ファイルを成功扱い、executing loopが起きたと説明した。

コミュニティが最初に疑ったもの

有用な返信は「local modelsは弱い」で終わらなかった。複数のuserがOpenWebUIをweak linkとして挙げ、OpenCode、VSCodeのCline、llama.cpp、LM Studio runtimeではより良い結果が出ると述べた。OpenWebUIはchat用途には十分でも、native tool-call fieldsやreasoning fieldを期待する新しいmodelsでは扱いが弱いという指摘もあった。

debug checklist

threadから見えた変数は具体的だ。tool useを試すならaggressive quantを避ける、native tool callingが有効か確認する、reasoningが期待されるAPI fieldで返っているかを見る、tool schemaがmodelの想定と合っているかを検証する。さらに、asynchronous shell commandsは同じmodelでもwrapper次第で混乱を招くという経験談もあった。

なぜ重要か

local agentsはmodel leaderboardとして語られがちだが、このthreadはstack全体がproductだと示している。QwenやGemmaのmodelが強くても、UI wrapperがtool-call JSONを壊したりreasoningを誤処理したりすれば、ユーザーはhallucinated file writeやstuck executionに遭遇する。実務ではmodel、quant、server、runtime、wrapper、tool mode、taskをまとめて記録しないと、比較はほとんど意味を持たない。

Source: r/LocalLLaMA discussion.

Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った

Community Spark

コミュニティが最初に疑ったもの

debug checklist

なぜ重要か

Related Articles

vLLMのQwen3+ streaming parser、local agent運用の痛点へ

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業

Related Articles

vLLMのQwen3+ streaming parser、local agent運用の痛点へ
LLM Reddit Jun 16, 2026 1 min read

Qwen 3.6 27B、local開発モデルの現実的なsweet spotか
LLM Hacker News Jun 30, 2026 1 min read

Open-weight規制反対の公開書簡、LocalLLaMAで焦点になった署名企業