Qwen3.6-Max-Preview、coding benchmark上位でもcloud-only
Original: Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving View original →
AlibabaのQwen teamは、今回のreleaseで二つのdeveloper narrativeを同時に示している。Agentic codingの性能向上と、open weightsとhosted modelの境界線だ。Teamは、2026年4月22日のAlibaba Cloud Community postで、Qwen3.6-Max-Previewを次のproprietary modelのearly previewとして説明した。Model nameはqwen3.6-max-previewで、Qwen StudioとAlibaba Cloud Model Studio APIから利用できるとしている。
目を引くのはbenchmarkだ。AlibabaはQwen3.6-Plus比で、SkillsBench +9.9、SciCode +6.3、NL2Repo +5.0、Terminal-Bench 2.0 +3.8のagentic coding改善を報告している。Knowledgeとinstruction followingでも、SuperGPQA +2.3、QwenChineseBench +5.3、ToolcallFormatIFBench +2.8を示した。Postは、Qwen3.6-Max-PreviewがSWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench、SciCodeの六つのmajor coding benchmarkでtop scoreに達したとしている。
この数字はcoding-agent builderにとって無視しにくい。Repository reasoning、scientific coding、terminal task、tool-call formattingが同時に伸びたという主張は、chat-only用途ではなく長いworkflowを狙っている。Alibabaは、agentic task向けに前のturnのthinking contentをmessage内に保持するpreserve_thinking featureも強調している。
一方で、制約も中心にある。これはopen-weight dropではない。PostはQwen3.6-Max-Previewをhosted proprietary modelと呼び、まだactive development中だとしている。Qwenがdeveloper mindshareを伸ばした背景にはopen-weight releaseがあるが、Max previewはcloud path上の製品だ。Local deployment、reproducible weights、full audit controlが必要なteamにとっては、local-model communityで話題になるQwen3.6 open-weight modelとは別のproduct categoryになる。
AlibabaはAPI compatibilityも前面に出している。Model StudioはOpenAI specificationとcompatibleなchat completions、responses APIに加え、Anthropic-compatible interfaceも提供するという。すでに複数providerへworkloadを振り分けているteamには、integration frictionを下げる材料になる。だからこそindependent evaluationが重要だ。Vendor benchmark chartは方向を示せるが、実際のrepository、珍しいtoolchain、multilingual codebaseで性能が残るかはproduction workloadが決める。
実務的には、Qwenのproprietary tierがcoding-agent trafficを直接取りに来ており、open-weight branchがcommunity attentionを支える構図だ。次に見るべき点は、Qwen3.6-Max-Previewが外部testでClaude、GPT、Kimi、GLMと比べても数字を維持できるかだ。同時にAlibabaが二つのtrackを保てるかも問われる。Developer trustを保つだけopenで、frontier-scale agent modelを支えるだけhosted revenueを作れるかという問題だ。
Related Articles
LocalLLaMAが熱くなった理由は絶対値の点数だけではない。2026年4月28日のこの投稿は、Qwen 3.6-27BのTerminal-Bench 2.0での38.2%をlate-2025 frontier相当と結びつけ、ローカルコーディングを導入判断の土俵に乗せた。
LocalLLaMAを動かしたのは単なるQwenのスコア更新ではなかった。同じ系統のローカルモデルがscaffold変更だけで19%から45%、さらに78.7%へ伸びたという流れが、ベンチマーク比較そのものを見直す空気を生んだ。
AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。