Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ

Open-weightが実運用エージェントの候補に

Open-weight LLMは、単に閉鎖モデルより安い選択肢ではなくなっている。OpenRouterは2026年6月27日19:40:46 UTCの投稿で、4つのopen-weight modelsが企業のagentic pipelineで使われる領域に入ったと示した。焦点はモデル名の羅列ではない。DeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraが、それぞれ価格、計画能力、モダリティ、企業向け配備の条件で違う役割を持ち始めたことだ。

“real agentic pipelines”

OpenRouterのアカウントは、モデルルーティング、料金、ベンチマーク、利用状況を頻繁に共有するインフラ寄りの発信元だ。今回の投稿は、同社のInsightsブログにあるJune 2026分析へつながっている。ブログはDeepSeek V4 Flashを約284B parameters、約13B active MoE、1M-token contextのモデルと説明し、SWE-bench Verifiedで79.0%を記録したと書く。これはV4 Proの80.6%との差が約1.6ポイントで、同時にfirst-party APIの出力単価はGPT-5.5より約150x安いという比較も添えられている。

品質、価格、入力形式で分かれる使い道

GLM 5.2は品質面の候補として置かれている。OpenRouterのブログは、Artificial Analysis Intelligence Index v4.1でGLM 5.2が51を取り、Nemotron 3 Ultraの48、MiniMax M3とDeepSeek V4 Proの44を上回ったと整理した。OpenRouterのモデルページも、GLM 5.2を1M-token contextに対応し、long-horizon agent workflows、project-level software engineering、complex multi-step automationに向くreasoning modelとして説明している。

MiniMax M3は別の軸だ。画像と動画入力を扱うlong-contextモデルとして、UI自動化、スクリーンショット検査、図表理解、文書ワークフローで試す価値がある。Nemotron 3 Ultraは、550B / 55B-active hybrid Mamba-2 + Transformer MoEとNVIDIAの配備スタックを前面に出す米国発open-weight候補である。

次に見るべきなのは、初期の試用後もこれらのモデルが実トラフィックを保てるかだ。長時間のエージェント処理では、ベンチマーク順位だけでなく、providerの安定性、effective pricing、throughput、uptime、データポリシーが総コストを左右する。OpenRouterが公開ページでこれらを並べている点は、モデル評価が購買と運用の判断に直結していることを示す。出典: OpenRouter source tweet · OpenRouter Insights blog · GLM 5.2 model page

Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ

Open-weightが実運用エージェントの候補に

品質、価格、入力形式で分かれる使い道

Related Articles

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

OpenRouter Benchmarks API、エージェントが最新モデル順位を実行時に参照可能に

Fusion API、Fable 5級の研究回答を半額水準で狙う設計