Skip to content
腐食中

Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った

Original: Are you guys actually using local tool calling or is it a collective prank? View original →

Read in other languages: 한국어English
LLM Apr 19, 2026 By Insights AI (Reddit) 1 min read 14 views Source

Community Spark

r/LocalLLaMA threadは、local tool callingは本当に使われているのか、それとも集団的な冗談なのかという率直な問いで伸びた。投稿者はOpen WebUI、Docker上のTerminal、LM Studio経由のmodelsという構成で、Qwen3.5 27B/35B、Gemma4 26B、Qwen3.6 35B、GPT-OSS 20Bを試したが、単純なfile creationでも失敗、空ファイルを成功扱い、executing loopが起きたと説明した。

コミュニティが最初に疑ったもの

有用な返信は「local modelsは弱い」で終わらなかった。複数のuserがOpenWebUIをweak linkとして挙げ、OpenCode、VSCodeのCline、llama.cpp、LM Studio runtimeではより良い結果が出ると述べた。OpenWebUIはchat用途には十分でも、native tool-call fieldsやreasoning fieldを期待する新しいmodelsでは扱いが弱いという指摘もあった。

debug checklist

threadから見えた変数は具体的だ。tool useを試すならaggressive quantを避ける、native tool callingが有効か確認する、reasoningが期待されるAPI fieldで返っているかを見る、tool schemaがmodelの想定と合っているかを検証する。さらに、asynchronous shell commandsは同じmodelでもwrapper次第で混乱を招くという経験談もあった。

なぜ重要か

local agentsはmodel leaderboardとして語られがちだが、このthreadはstack全体がproductだと示している。QwenやGemmaのmodelが強くても、UI wrapperがtool-call JSONを壊したりreasoningを誤処理したりすれば、ユーザーはhallucinated file writeやstuck executionに遭遇する。実務ではmodel、quant、server、runtime、wrapper、tool mode、taskをまとめて記録しないと、比較はほとんど意味を持たない。

Source: r/LocalLLaMA discussion.

Share: Long

Related Articles

LLM Reddit May 22, 2026 1 min read

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

LLM Reddit Apr 7, 2026 1 min read

約350ポイントを集めたLocalLLaMA投稿は、Gemma 4 26B A3Bが適切なruntime設定と組み合わさると、ローカルのcoding-agentやtool-calling workflowで非常に強く感じられると主張している。投稿者は他のローカルモデル環境で経験したprompt cachingやfunction callingの問題と対比して語っている。