Local tool calling 현실 점검: r/LocalLLaMA가 본 문제는 model보다 harness였다

Community Spark

r/LocalLLaMA의 thread는 “local tool calling이 실제로 되는가”라는 직설적인 질문으로 100 points 안팎과 140개 넘는 comments를 모았다. 작성자는 Open WebUI, Docker Terminal, LM Studio 조합에서 Qwen3.5 27B/35B, Gemma4 26B, Qwen3.6 35B, GPT-OSS 20B를 써봤지만 file creation이 실패하거나 빈 파일을 성공처럼 설명하고, executing loop에 걸린다고 적었다.

댓글의 첫 반응

상위 댓글들은 “local model이 전부 안 된다”보다 harness 문제를 먼저 의심했다. 여러 사용자가 OpenWebUI를 weak link로 지목했고, OpenCode에서는 같은 류의 tool calling이 훨씬 낫다고 말했다. Cline in VSCode나 llama.cpp, LM Studio runtime을 조합해 안정적으로 쓴다는 답도 있었다. 즉 model family보다 UI wrapper와 tool-call protocol handling이 결과를 크게 바꾼다는 쪽으로 의견이 모였다.

기술적으로 갈린 변수

커뮤니티가 반복해서 짚은 변수는 quantization, native tool calling 설정, reasoning field 처리였다. 한 댓글은 Q5 이하의 aggressive quant가 작은 model에서 문제를 만들 수 있다고 했고, 다른 댓글은 OpenWebUI가 reasoning을 API field가 아니라 think tags처럼 돌려주는 경우를 지적했다. OpenWebUI의 prompted tool calling 기본값과 native tool calling 설정 차이도 중요한 체크리스트로 올라왔다.

Takeaway

이 thread의 값은 benchmark보다 운영 감각에 있다. local tool calling은 “된다/안 된다”가 아니라 model, quant, runtime, harness, tool schema, async shell behavior가 함께 맞아야 한다. r/LocalLLaMA의 결론은 냉정하다. Qwen 계열 같은 model이 좋아졌더라도, wrapper가 reasoning과 tool calls를 정확히 전달하지 못하면 사용자는 hallucinated file write와 stuck execution을 경험한다. local agents를 평가할 때는 model name보다 full stack을 기록해야 한다.

Source: r/LocalLLaMA discussion.

Local tool calling 현실 점검: r/LocalLLaMA가 본 문제는 model보다 harness였다

Community Spark

댓글의 첫 반응

기술적으로 갈린 변수

Takeaway

Related Articles

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

Comments (0)

Leave a Comment

Related Articles

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다