Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다
Original: Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All View original →
HN discussion에서 Qwen3.6-35B-A3B는 단순한 model release보다 더 실용적인 질문으로 읽혔다. 숫자상 headline은 35B total parameter지만, 커뮤니티가 붙잡은 부분은 sparse MoE 구조다. Qwen은 이 모델을 35B total, 약 3B active parameter로 설명했고, Hugging Face와 ModelScope에 open weights를 올렸으며, Qwen Studio에서 사용 가능하고 API에서는 Qwen3.6-Flash로 제공될 예정이라고 적었다.
이 구조가 중요한 이유는 coding agent를 실제 workflow 안에 넣으려는 팀들이 frontier model 수준의 serving 비용을 계속 감당하기 어렵기 때문이다. Qwen의 자체 표에서 Qwen3.6-35B-A3B는 SWE-bench Verified 73.4, Terminal-Bench 2.0 51.5, MCPMark 37.0, QwenWebBench 1397 Elo를 기록했다. 각 benchmark harness와 비교군은 따져봐야 하지만, HN은 이 수치를 작은 active-parameter MoE가 software 작업에서 진지하게 검토될 수 있다는 신호로 받아들였다.
댓글 흐름은 open-weight 모델이 실제로 채택되는 방식을 잘 보여줬다. 한 사용자는 Unsloth의 GGUF conversion을 바로 공유했고, 다른 사용자들은 36GB Mac에서 context를 얼마나 실을 수 있는지, 9B나 27B variant가 더 필요하지 않은지, 그리고 open model끼리만 비교한 표가 proprietary model을 쓰는 개발자에게 충분한 기준이 되는지 물었다.
핵심은 Qwen이 또 하나의 score table을 냈다는 사실이 아니다. HN은 이 모델을 infrastructure처럼 대했다. quantization이 되는가, local machine에서 돌아가는가, memory budget 안에 들어오는가, tool use와 긴 context가 필요한 coding-agent task를 버티는가. 지금 open model이 통과해야 하는 테스트는 바로 그쪽에 가깝다.
Related Articles
LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.
LocalLLaMA의 release post는 OmniCoder-9B를 425,000개 이상 agentic trajectory로 학습한 Qwen3.5-9B 기반 coding agent로 소개했고, 댓글은 read-before-write 같은 실제 작업 습관에 주목했다.
r/LocalLLaMA에서는 MiniMax M2.7의 공개 직후, Hugging Face LICENSE가 상업적 사용을 금지하고 있어 open source로 보기 어렵다는 지적이 빠르게 확산됐다.
Comments (0)
No comments yet. Be the first to comment!