M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

이 r/LocalLLaMA 글은 benchmark chart보다 개인 작업 후기에 가까웠지만, 그래서 더 크게 반응을 얻었다. 작성자는 Qwen3.6-35B-A3B를 8-bit quant, 64k context로 MacBook Pro M5 Max 128GB에서 OpenCode와 함께 돌렸고, “as good as Claude”라고 표현했다. 본인도 “trust me bro post”라고 선을 그었지만, thread는 바로 실사용 조건을 파고들었다.

작성자가 제시한 workload는 Android app에서 R8이 serialization을 깨뜨리는 이유를 조사하는 long research task였다. 여러 tool calls를 처리했고, response가 빠르며, 이전 daily driver였던 Kimi k2.5 via OpenCode zen을 대체할 수 있겠다고 썼다. 가장 큰 감정선은 privacy였다. codebase를 random providers로 보내고 “trusting”하지 않아도 된다는 문장이 LocalLLaMA 독자들에게 꽂혔다.

댓글들은 곧바로 균형을 잡았다. 한 사용자는 RTX 5090에서 속도가 cloud model보다 체감 experience를 좋게 만든다고 했고, 다른 사용자는 Qwen 계열에서 context가 싸기 때문에 256k까지도 볼 수 있다고 했다. 반대로 “Claude만큼은 아니다, 하지만 꽤 좋다”는 반응과, agentic coding에서 64k context가 낮은 편 아니냐는 질문도 나왔다.

community discussion noted that 이 글의 의미는 formal benchmark가 아니라 threshold signal에 있었다. local model이 “돌아간다”에서 “daily coding agent로 버틸 수 있다”로 넘어가는 순간은 사람마다 다르다. Qwen3.6-35B-A3B에 대한 여러 사용자의 비슷한 후기가 겹치면서, LocalLLaMA는 local inference를 hobby에서 operational choice로 보기 시작했다.

그래도 caveat는 중요하다. hardware, quantization, KV cache, context length, editor workflow가 모두 결과를 바꾼다. 이 thread가 남긴 값은 하나의 승자 선언이 아니라, local coding agents를 평가할 때 privacy, latency, context cost, tool-call stability를 같이 봐야 한다는 점이다.

LLM Reddit 5d ago 1 min read

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

#qwen #quantization #gguf

LLM Reddit 3d ago 1 min read

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

LocalLLaMA가 이 글을 올려준 이유는 복잡한 GGUF 선택을 측정 가능한 tradeoff로 바꿨기 때문이다. 글은 community Qwen3.5-9B quant를 BF16 baseline과 mean KLD로 비교했고, 댓글은 chart 표현, Gemma 4, Thireus quant, long-context test까지 요구했다.

#qwen #gguf #quantization

LLM Reddit 1d ago 1 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.

#qwen #gguf #local-llm

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

Related Articles

r/LocalLLaMA가 Qwen3.5-9B quant를 다시 세운 기준: 감이 아니라 KLD로 고르자

Qwen3.5-9B quant 고르기, LocalLLaMA는 감이 아니라 KLD 표를 원했다

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Comments (0)

Leave a Comment