M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

Original: I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude View original →

Read in other languages: English日本語
LLM Apr 20, 2026 By Insights AI (Reddit) 1 min read Source

이 r/LocalLLaMA 글은 benchmark chart보다 개인 작업 후기에 가까웠지만, 그래서 더 크게 반응을 얻었다. 작성자는 Qwen3.6-35B-A3B를 8-bit quant, 64k context로 MacBook Pro M5 Max 128GB에서 OpenCode와 함께 돌렸고, “as good as Claude”라고 표현했다. 본인도 “trust me bro post”라고 선을 그었지만, thread는 바로 실사용 조건을 파고들었다.

작성자가 제시한 workload는 Android app에서 R8이 serialization을 깨뜨리는 이유를 조사하는 long research task였다. 여러 tool calls를 처리했고, response가 빠르며, 이전 daily driver였던 Kimi k2.5 via OpenCode zen을 대체할 수 있겠다고 썼다. 가장 큰 감정선은 privacy였다. codebase를 random providers로 보내고 “trusting”하지 않아도 된다는 문장이 LocalLLaMA 독자들에게 꽂혔다.

댓글들은 곧바로 균형을 잡았다. 한 사용자는 RTX 5090에서 속도가 cloud model보다 체감 experience를 좋게 만든다고 했고, 다른 사용자는 Qwen 계열에서 context가 싸기 때문에 256k까지도 볼 수 있다고 했다. 반대로 “Claude만큼은 아니다, 하지만 꽤 좋다”는 반응과, agentic coding에서 64k context가 낮은 편 아니냐는 질문도 나왔다.

community discussion noted that 이 글의 의미는 formal benchmark가 아니라 threshold signal에 있었다. local model이 “돌아간다”에서 “daily coding agent로 버틸 수 있다”로 넘어가는 순간은 사람마다 다르다. Qwen3.6-35B-A3B에 대한 여러 사용자의 비슷한 후기가 겹치면서, LocalLLaMA는 local inference를 hobby에서 operational choice로 보기 시작했다.

그래도 caveat는 중요하다. hardware, quantization, KV cache, context length, editor workflow가 모두 결과를 바꾼다. 이 thread가 남긴 값은 하나의 승자 선언이 아니라, local coding agents를 평가할 때 privacy, latency, context cost, tool-call stability를 같이 봐야 한다는 점이다.

Share: Long

Related Articles

LLM Reddit 5d ago 1 min read

r/LocalLLaMA에서 이 비교가 먹힌 이유는 GGUF 파일 선택을 감이나 평판이 아니라 분포 차이로 설명했기 때문이다. 작성자는 BF16 baseline 대비 mean KLD를 기준으로 community quants를 정렬했고, Q8_0 계열은 fidelity 쪽 상단에, 여러 IQ4와 Q5 계열은 size 대 fidelity 균형 구간에 배치했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.