Local tool callingの現実チェック、r/LocalLLaMAはmodelよりharnessを疑った

Original: Are you guys actually using local tool calling or is it a collective prank? View original →

Read in other languages: 한국어English
LLM Apr 19, 2026 By Insights AI (Reddit) 1 min read Source

Community Spark

r/LocalLLaMA threadは、local tool callingは本当に使われているのか、それとも集団的な冗談なのかという率直な問いで伸びた。投稿者はOpen WebUI、Docker上のTerminal、LM Studio経由のmodelsという構成で、Qwen3.5 27B/35B、Gemma4 26B、Qwen3.6 35B、GPT-OSS 20Bを試したが、単純なfile creationでも失敗、空ファイルを成功扱い、executing loopが起きたと説明した。

コミュニティが最初に疑ったもの

有用な返信は「local modelsは弱い」で終わらなかった。複数のuserがOpenWebUIをweak linkとして挙げ、OpenCode、VSCodeのCline、llama.cpp、LM Studio runtimeではより良い結果が出ると述べた。OpenWebUIはchat用途には十分でも、native tool-call fieldsやreasoning fieldを期待する新しいmodelsでは扱いが弱いという指摘もあった。

debug checklist

threadから見えた変数は具体的だ。tool useを試すならaggressive quantを避ける、native tool callingが有効か確認する、reasoningが期待されるAPI fieldで返っているかを見る、tool schemaがmodelの想定と合っているかを検証する。さらに、asynchronous shell commandsは同じmodelでもwrapper次第で混乱を招くという経験談もあった。

なぜ重要か

local agentsはmodel leaderboardとして語られがちだが、このthreadはstack全体がproductだと示している。QwenやGemmaのmodelが強くても、UI wrapperがtool-call JSONを壊したりreasoningを誤処理したりすれば、ユーザーはhallucinated file writeやstuck executionに遭遇する。実務ではmodel、quant、server、runtime、wrapper、tool mode、taskをまとめて記録しないと、比較はほとんど意味を持たない。

Source: r/LocalLLaMA discussion.

Share: Long

Related Articles

LLM Reddit 4d ago 1 min read

r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。

LLM Reddit 3d ago 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.