Qwen3.6-27B에 LocalLLaMA 들썩… 27B dense와 262K context
Original: Qwen 3.6 27B is out View original →
LocalLLaMA가 바로 반응한 이유
r/LocalLLaMA의 "Qwen 3.6 27B is out" 글은 1505 points, 541 comments까지 올라갔다. 원문은 Hugging Face repository 링크 하나에 가까웠지만, thread는 빠르게 커졌다. 이 release가 local model 이용자들이 바로 행동할 수 있는 조건을 갖췄기 때문이다. open weights, quantization 이후 high-end personal hardware에서 가능해 보이는 size, 그리고 coding 중심 model card가 한꺼번에 나왔다.
Model card의 핵심
Hugging Face page는 Qwen3.6-27B를 2026년 4월 공개된 Qwen3.6의 첫 open-weight variant로 설명한다. license는 Apache 2.0이다. 모델은 image-text-to-text로 분류되며, 27B parameter language model, vision encoder, Transformers, vLLM, SGLang, KTransformers 호환성을 내세운다. 강조점은 agentic coding, frontend workflow, repository-level reasoning, 그리고 반복 작업에서 reasoning context를 보존하는 thinking-preservation option이다.
Thread를 움직인 숫자
공식 card는 native context length를 262,144 tokens, 설정 변경 시 최대 1,010,000 tokens까지 확장 가능하다고 적고 있다. 또한 Qwen3.5 variants, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B와의 benchmark 결과를 제시한다. Reddit 이용자들이 곧장 본 것은 이 숫자가 quantization 이후 무엇을 의미하느냐였다. 27B dense model이 매번 frontier cloud model을 빌리지 않고도 coding task에서 충분히 경쟁적인 체감이 나올 수 있는지가 핵심이었다.
Community energy: 먼저 quantize, 나중에 논쟁
Top comments에는 FP8, GGUF variant, benchmark screenshot, hardware 질문이 빠르게 붙었다. Community discussion은 dense model이 더 큰 system과의 격차를 일부 좁힌다는 기대를 드러내면서도, 결국 LocalLLaMA다운 질문으로 돌아갔다. 어떤 machine에서, 몇 tokens per second로, context를 얼마나 남기고 돌릴 수 있느냐는 것이다. 이 release가 크게 반응을 얻은 이유도 여기에 있다. 이 community에서 모델은 download하고 quantize하고 실제 속도를 보고해야 비로소 현실이 된다.
Related Articles
r/LocalLLaMA가 900점 넘게 반응한 이유는 Qwen3.6 score표가 아니라, local coding agent가 canvas bug와 wave completion issue를 스스로 찾아 고쳤다는 사용기였다.
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.