Qwen3.6-35B-A3B、HNが見た焦点は3B active MoEのcoding力
Original: Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All View original →
HN discussionでのQwen3.6-35B-A3Bは、普通のmodel releaseよりも実務寄りに読まれていた。見出しの数字は35B total parametersだが、コミュニティが注目したのはsparse MoEという形だ。Qwenはこのモデルを35B total、約3B active parametersと説明し、Hugging FaceとModelScopeでopen weightsを出し、Qwen Studioで試せるようにして、APIではQwen3.6-Flashとして提供予定だとしている。
この形が刺さるのは、coding agentを日常の開発に入れたいチームが、frontier model級のserving costをずっと払えるわけではないからだ。Qwenの表では、Qwen3.6-35B-A3BはSWE-bench Verified 73.4、Terminal-Bench 2.0 51.5、MCPMark 37.0、QwenWebBench 1397 Eloを出している。benchmark harnessや比較対象は冷静に見る必要があるが、HNは小さいactive-parameterのMoEがsoftware作業で真面目な候補になりつつあるというシグナルとして受け止めた。
コメント欄は、open-weight modelが実際に使われるまでの道筋も見せていた。あるユーザーはすぐにUnslothのGGUF conversionを共有し、別のユーザーは36GB Macでどれだけcontextを載せられるのか、9Bや27B variantの方が欲しいのではないか、open modelだけを並べたbenchmark表だけで十分なのかを問いかけた。
重要なのは、Qwenがまたscore tableを出したことではない。HNはこのモデルをinfrastructureとして見た。quantizationできるか、local machineで動くか、memory budgetに収まるか、tool useと長いcontextが必要なcoding-agent taskで耐えられるか。いまopen modelに向けられるテストは、その現実寄りの問いになっている。
Related Articles
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
r/LocalLLaMAに投稿されたbenchmarkは、Intel Arc Pro B70 32GBとIntelのvLLM forkの組み合わせでQwen3.5-27B int4を実用的にserveできる可能性を示した。ただしtensor parallelよりpipeline parallelの方が有利で、setupの安定化にもかなりの試行錯誤が必要だった。
r/LocalLLaMAでこの比較が受けたのは、GGUF選びを評判や体感ではなく、baselineとの分布差で説明したからだ。投稿者はBF16 baselineに対するmean KLDでQwen3.5-9Bのcommunity quantを並べ、Q8_0系はfaithfulness上位、複数のIQ4とQ5系はsizeとdriftのバランス候補として示している。
Comments (0)
No comments yet. Be the first to comment!