LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.
Qwen3.6 Local Inference Watch: MoE, GGUF, 튜닝
Current state
Qwen3.6-35B-A3B 공개부터 HN coding-performance 논쟁, pelican benchmark, GGUF quant 선택, --n-cpu-moe 튜닝, M5 Max 64k context 실측까지 local inference 운영 흐름을 순서대로 묶습니다.
What changed recently
- Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁
- RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유
- Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다
Key tensions
Signals to watch
- Momentum and new coverage around “qwen”
- Momentum and new coverage around “local-llm”
- Momentum and new coverage around “open-weights”
Timeline
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.
LocalLLaMA는 숫자만 보고 환호하지 않았다. 80 tps와 218k 컨텍스트가 뜨자마자 실제 프롬프트 길이, 양자화 손실, 그리고 vLLM 세팅이 어디까지 재현 가능한지부터 캐물었다.
LocalLLaMA가 이 글을 밀어 올린 이유는 모두가 벤치마크를 믿어서가 아니다. 27B 오픈 모델이 에이전트형 작업에서 갑자기 경쟁권으로 들어온 듯 보였고, 그래서 더 중요해 보이면서도 동시에 더 수상해 보이는 결과가 토론을 키웠다.
LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.
HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.
LocalLLaMA는 Qwen3.6-27B를 model card가 아니라 바로 quantize하고 돌려볼 수 있는 ownership 순간으로 받아들였다.
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
LocalLLaMA에서 반응이 컸던 포인트는 "새 모델이 세다"보다 "제대로 켜야 보인다"는 실전 팁이었다. 작성자는 M5 Max 128GB 환경에서 Qwen3.6을 8bit로 돌리며 Opus와 Codex에 맡기던 일부 작업을 처리했다고 했고, 핵심 설정으로 preserve_thinking을 짚었다.
r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.
r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.
중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.
HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.
HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.