Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った
Original: Are you guys actually using local tool calling or is it a collective prank? View original →
Community Spark
r/LocalLLaMA threadは、local tool callingは本当に使われているのか、それとも集団的な冗談なのかという率直な問いで伸びた。投稿者はOpen WebUI、Docker上のTerminal、LM Studio経由のmodelsという構成で、Qwen3.5 27B/35B、Gemma4 26B、Qwen3.6 35B、GPT-OSS 20Bを試したが、単純なfile creationでも失敗、空ファイルを成功扱い、executing loopが起きたと説明した。
コミュニティが最初に疑ったもの
有用な返信は「local modelsは弱い」で終わらなかった。複数のuserがOpenWebUIをweak linkとして挙げ、OpenCode、VSCodeのCline、llama.cpp、LM Studio runtimeではより良い結果が出ると述べた。OpenWebUIはchat用途には十分でも、native tool-call fieldsやreasoning fieldを期待する新しいmodelsでは扱いが弱いという指摘もあった。
debug checklist
threadから見えた変数は具体的だ。tool useを試すならaggressive quantを避ける、native tool callingが有効か確認する、reasoningが期待されるAPI fieldで返っているかを見る、tool schemaがmodelの想定と合っているかを検証する。さらに、asynchronous shell commandsは同じmodelでもwrapper次第で混乱を招くという経験談もあった。
なぜ重要か
local agentsはmodel leaderboardとして語られがちだが、このthreadはstack全体がproductだと示している。QwenやGemmaのmodelが強くても、UI wrapperがtool-call JSONを壊したりreasoningを誤処理したりすれば、ユーザーはhallucinated file writeやstuck executionに遭遇する。実務ではmodel、quant、server、runtime、wrapper、tool mode、taskをまとめて記録しないと、比較はほとんど意味を持たない。
Source: r/LocalLLaMA discussion.
Related Articles
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
r/LocalLLaMAが見ていたのは、Qwen3.6のrelease headlineではなく、どのGGUF quantを実機で使うべきかだった。Unslothのbenchmark postは、KLD、disk space、CUDA 13.2のgibberish問題、CUDA 13.1/13.3対応へ議論を引き寄せた。
Comments (0)
No comments yet. Be the first to comment!