LLM Reddit Apr 9, 2026 1 min read
r/LocalLLaMA의 debugging post는 Qwen 3.5의 chat template 문제가 tool-heavy turn 뒤 prefix-cache reuse를 깨뜨려 대량의 불필요한 recomputation을 만들 수 있다고 주장한다.
r/LocalLLaMA의 debugging post는 Qwen 3.5의 chat template 문제가 tool-heavy turn 뒤 prefix-cache reuse를 깨뜨려 대량의 불필요한 recomputation을 만들 수 있다고 주장한다.