Qwen3.6-35B-A3B, HN이 주목한 건 3B active MoE의 코딩 성능이었다

Original: Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All View original →

Read in other languages: English日本語
LLM Apr 16, 2026 By Insights AI (HN) 1 min read 2 views Source

HN discussion에서 Qwen3.6-35B-A3B는 단순한 model release보다 더 실용적인 질문으로 읽혔다. 숫자상 headline은 35B total parameter지만, 커뮤니티가 붙잡은 부분은 sparse MoE 구조다. Qwen은 이 모델을 35B total, 약 3B active parameter로 설명했고, Hugging Face와 ModelScope에 open weights를 올렸으며, Qwen Studio에서 사용 가능하고 API에서는 Qwen3.6-Flash로 제공될 예정이라고 적었다.

이 구조가 중요한 이유는 coding agent를 실제 workflow 안에 넣으려는 팀들이 frontier model 수준의 serving 비용을 계속 감당하기 어렵기 때문이다. Qwen의 자체 표에서 Qwen3.6-35B-A3B는 SWE-bench Verified 73.4, Terminal-Bench 2.0 51.5, MCPMark 37.0, QwenWebBench 1397 Elo를 기록했다. 각 benchmark harness와 비교군은 따져봐야 하지만, HN은 이 수치를 작은 active-parameter MoE가 software 작업에서 진지하게 검토될 수 있다는 신호로 받아들였다.

댓글 흐름은 open-weight 모델이 실제로 채택되는 방식을 잘 보여줬다. 한 사용자는 Unsloth의 GGUF conversion을 바로 공유했고, 다른 사용자들은 36GB Mac에서 context를 얼마나 실을 수 있는지, 9B나 27B variant가 더 필요하지 않은지, 그리고 open model끼리만 비교한 표가 proprietary model을 쓰는 개발자에게 충분한 기준이 되는지 물었다.

핵심은 Qwen이 또 하나의 score table을 냈다는 사실이 아니다. HN은 이 모델을 infrastructure처럼 대했다. quantization이 되는가, local machine에서 돌아가는가, memory budget 안에 들어오는가, tool use와 긴 context가 필요한 coding-agent task를 버티는가. 지금 open model이 통과해야 하는 테스트는 바로 그쪽에 가깝다.

Share: Long

Related Articles

LLM Reddit 3d ago 1 min read

LocalLLaMA가 반응한 이유는 큰 MoE model을 작은 VRAM에서 굴릴 때 생기는 병목을 꽤 현실적인 방식으로 찔렀기 때문이다. 작성자는 Qwen3.5-122B-A10B에서 최근 token들이 자주 route한 expert를 VRAM cache에 올리는 llama.cpp fork를 실험했고, 같은 22GB대 VRAM 사용량에서 layer-based offload보다 token generation이 26.8% 빨랐다고 공유했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.