Qwen3.6 Local Inference Watch: MoE, GGUF, 튜닝

16 articles Updated Apr 29, 2026 #qwen #local-llm #open-weights #benchmarks

Current state

Qwen3.6-35B-A3B 공개부터 HN coding-performance 논쟁, pelican benchmark, GGUF quant 선택, --n-cpu-moe 튜닝, M5 Max 64k context 실측까지 local inference 운영 흐름을 순서대로 묶습니다.

What changed recently

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁
RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유
Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

Key tensions

Optimistic case: Qwen3.6 Local Inference Watch: MoE, GGUF, 튜닝 unlocks real, compounding leverage.

Skeptical case: reliability, cost, and control around Qwen3.6 Local Inference Watch: MoE, GGUF, 튜닝 remain unresolved.

Signals to watch

Momentum and new coverage around “qwen”
Momentum and new coverage around “local-llm”
Momentum and new coverage around “open-weights”

Timeline

Latest

LLM Reddit Apr 29, 2026 1 min read

Qwen 3.6 27B 양자화 비교, LocalLLaMA가 꽂힌 건 Q4_K_M… 그런데 숫자 논쟁

LocalLLaMA가 먼저 반긴 건 숫자 자체보다 “이런 비교 더 필요하다”는 분위기였다. 다만 Q4_K_M이 Q8_0보다 실전형으로 보인다는 결론이 나오자, 곧바로 오차 범위와 KV 캐시 설정을 따지는 검증 모드로 들어갔다.

#qwen #gguf #quantization

Recent development

LLM Reddit Apr 28, 2026 1 min read

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.

#qwen #speculative-decoding #gguf

Recent development

LLM Reddit Apr 27, 2026 1 min read

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.

#qwen #vllm #rtx-5090

Recent development

LLM Reddit Apr 26, 2026 1 min read

RTX 5090 한 장으로 Qwen3.6-27B 80 tps, LocalLLaMA가 바로 따진 조건들

LocalLLaMA는 숫자만 보고 환호하지 않았다. 80 tps와 218k 컨텍스트가 뜨자마자 실제 프롬프트 길이, 양자화 손실, 그리고 vLLM 세팅이 어디까지 재현 가능한지부터 캐물었다.

#qwen3-6 #vllm #rtx-5090

Recent development

LLM Reddit Apr 25, 2026 1 min read

27B가 여기까지 왔나, LocalLLaMA가 Qwen3.6에 술렁인 이유

LocalLLaMA가 이 글을 밀어 올린 이유는 모두가 벤치마크를 믿어서가 아니다. 27B 오픈 모델이 에이전트형 작업에서 갑자기 경쟁권으로 들어온 듯 보였고, 그래서 더 중요해 보이면서도 동시에 더 수상해 보이는 결과가 토론을 키웠다.

#qwen #open-weights #benchmarks

Recent development

LLM Reddit Apr 24, 2026 2 min read

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.

#qwen #coding-agents #benchmarks

Recent development

LLM Hacker News Apr 24, 2026 1 min read

27B dense로 여기까지, Qwen3.6에 HN이 꽂힌 이유

HN은 Qwen3.6-27B를 벤치마크 승리보다 현실적으로 돌릴 수 있는 오픈 코딩 모델로 읽었다. 댓글도 점수표보다 메모리 요구량, self-hosting 가능성, dense 구조의 운영 단순성에 몰렸다.

#qwen #qwen3.6 #coding-model

Recent development

LLM Reddit Apr 23, 2026 1 min read

Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context

LocalLLaMA는 Qwen3.6-27B를 model card가 아니라 바로 quantize하고 돌려볼 수 있는 ownership 순간으로 받아들였다.

#qwen #local-llm #open-weights

Recent development

LLM Reddit Apr 20, 2026 1 min read

Qwen3.6에 LocalLLaMA가 들뜬 이유: benchmark보다 agent가 고치는 모습이었다

r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.

#qwen #local-llm #agents

Recent development

LLM Reddit Apr 20, 2026 1 min read

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.

#qwen #local-llm #coding-agents

Recent development

LLM Reddit Apr 19, 2026 1 min read

LocalLLaMA의 Qwen3.6 열기: 성능보다 설정이 먼저였다

LocalLLaMA에서 반응이 컸던 포인트는 "새 모델이 세다"보다 "제대로 켜야 보인다"는 실전 팁이었다. 작성자는 M5 Max 128GB 환경에서 Qwen3.6을 8bit로 돌리며 Opus와 Codex에 맡기던 일부 작업을 처리했다고 했고, 핵심 설정으로 preserve_thinking을 짚었다.

#qwen #local-llm #configuration

Recent development

LLM Reddit Apr 19, 2026 1 min read

Qwen3.6 79 t/s 글에서 r/LocalLLaMA가 본 진짜 변수: --n-cpu-moe

r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.

#qwen #llama-cpp #local-llm

Recent development

LLM Reddit Apr 18, 2026 1 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

r/LocalLLaMA가 Qwen3.6 release 자체보다 GGUF quant 선택과 CUDA 버그에 더 크게 반응했다. Unsloth의 benchmark post는 KLD, disk space, 4bit gibberish, CUDA 13.1/13.3 같은 실제 실행 조건을 전면에 올렸다.

#qwen #gguf #local-llm

Recent development

AI X/Twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B, 35B MoE 오픈가중치와 3B 활성 파라미터·Apache 2.0 공개

중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.

#qwen #open-weights #moe

Recent development

LLM Hacker News Apr 17, 2026 2 min read

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

HN이 이 농담 같은 테스트에 반응한 이유는 분명했다. 작은 local model의 선명한 SVG 한 장이 flagship model보다 좋아 보일 때, 그것이 무엇을 증명하는지 아무도 쉽게 합의하지 못한다.

#qwen #claude #local-llms

Recent development

LLM Hacker News Apr 16, 2026 1 min read

Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다

HN이 먼저 본 포인트는 open weights였다. 35B MoE지만 active parameter가 3B인 모델이 실제 coding agent 일을 버틸 수 있느냐가 핵심이었다. Qwen은 Qwen3.5-35B-A3B 대비 큰 개선을 내세웠고, 댓글은 곧바로 GGUF 변환, Mac 메모리 한계, open model끼리만 비교한 benchmark 해석으로 옮겨갔다.

#qwen #open-weights #coding-agents

Share: Long