Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

Open-weight modelをめぐる論点は、「使えるか」から「どのclosed frontier workloadを置き換えられるか」へ移っている。OpenRouterの6月分析は、その変化を4つのモデルで整理した。DeepSeek V4 Flashは価格、GLM 5.2はplanningとcoding品質、MiniMax M3はmultimodal long-context、NVIDIA Nemotron 3 Ultraはenterprise deploymentを代表する。

DeepSeek V4 Flashはコスト面のインパクトが大きい。OpenRouterはこのモデルを、MIT license、約284B parameter、約13B active MoE、1M-token contextのモデルとして説明している。SWE-bench Verifiedは79.0%で、より大きいV4 Proの80.6%から約1.6 point差に収まる。First-party API価格はmillion tokenあたり入力$0.14、出力$0.28で、cache適用時の入力は$0.029まで下がる。一方でfirst-party trafficは中国を通り、規約上trainingに使われ得る点が注意点だ。

GLM 5.2は品質側の候補として扱われる。Artificial Analysis Intelligence Index v4.1でopen-weight model首位の51点を取り、Nemotron 3 Ultra、MiniMax M3、DeepSeek V4 Pro、Kimi K2.6を上回ったとされる。GDPval-AA v2でもGPT-5.5 xhighとほぼ同水準という読みだ。OpenRouter weighted averageの価格はmillion tokenあたり入力$0.447、出力$3.31でDeepSeekほど安くないが、長いagentic coding taskでは十分に選択肢へ入る。

MiniMax M3はtext-onlyではなく、imageとvideoをnativeに扱える点が違う。Screenshot検査、UI automation、diagram、document、video grounded workflowでは選定基準が変わる。Nemotron 3 Ultraは米国発のopen-weight enterprise枠で、550B / 55B-active hybrid Mamba-2 + Transformer MoE、1M context、NVFP4、Multi-Token Prediction、OpenMDW licenseを備える。

OpenRouterの大きな見立ては、frontier labがopen-weight labを一方的に引き離しているわけではないというものだ。差は18カ月以上、3〜6カ月程度に保たれているという。企業が見るべき表はleaderboardだけではない。Data policy、providerの国、license、throughput、output token cost、deploymentのしやすさまで含めて再評価する局面に入っている。

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

Related Articles

Fusion API、Fable 5級の研究回答を半額水準で狙う設計

OpenRouter Benchmarks API、エージェントが最新モデル順位を実行時に参照可能に

OpenRouterの1.13億ドル調達、モデル選択をインフラ問題に押し上げる