Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ
Original: Four open-weight models cross into real agentic pipelines View original →
Open-weightが実運用エージェントの候補に
Open-weight LLMは、単に閉鎖モデルより安い選択肢ではなくなっている。OpenRouterは2026年6月27日19:40:46 UTCの投稿で、4つのopen-weight modelsが企業のagentic pipelineで使われる領域に入ったと示した。焦点はモデル名の羅列ではない。DeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraが、それぞれ価格、計画能力、モダリティ、企業向け配備の条件で違う役割を持ち始めたことだ。
“real agentic pipelines”
OpenRouterのアカウントは、モデルルーティング、料金、ベンチマーク、利用状況を頻繁に共有するインフラ寄りの発信元だ。今回の投稿は、同社のInsightsブログにあるJune 2026分析へつながっている。ブログはDeepSeek V4 Flashを約284B parameters、約13B active MoE、1M-token contextのモデルと説明し、SWE-bench Verifiedで79.0%を記録したと書く。これはV4 Proの80.6%との差が約1.6ポイントで、同時にfirst-party APIの出力単価はGPT-5.5より約150x安いという比較も添えられている。
品質、価格、入力形式で分かれる使い道
GLM 5.2は品質面の候補として置かれている。OpenRouterのブログは、Artificial Analysis Intelligence Index v4.1でGLM 5.2が51を取り、Nemotron 3 Ultraの48、MiniMax M3とDeepSeek V4 Proの44を上回ったと整理した。OpenRouterのモデルページも、GLM 5.2を1M-token contextに対応し、long-horizon agent workflows、project-level software engineering、complex multi-step automationに向くreasoning modelとして説明している。
MiniMax M3は別の軸だ。画像と動画入力を扱うlong-contextモデルとして、UI自動化、スクリーンショット検査、図表理解、文書ワークフローで試す価値がある。Nemotron 3 Ultraは、550B / 55B-active hybrid Mamba-2 + Transformer MoEとNVIDIAの配備スタックを前面に出す米国発open-weight候補である。
次に見るべきなのは、初期の試用後もこれらのモデルが実トラフィックを保てるかだ。長時間のエージェント処理では、ベンチマーク順位だけでなく、providerの安定性、effective pricing、throughput、uptime、データポリシーが総コストを左右する。OpenRouterが公開ページでこれらを並べている点は、モデル評価が購買と運用の判断に直結していることを示す。出典: OpenRouter source tweet · OpenRouter Insights blog · GLM 5.2 model page
Related Articles
OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。
モデル選択は、静的leaderboardではなく実行時routingの問題になりつつある。OpenRouterはBenchmarks APIでArtificial AnalysisやDesign Arenaを含むlive scoreを取得でき、GLM-5.2がcodingとdesignで上位だと示した。
OpenRouterはFusion APIがDRACOの100件の深層研究タスクでClaude Fable 5に1%以内まで迫ったと説明した。複数モデル、judge model、synthesizerを組み合わせ、費用をおよそ半分に抑える点が焦点だ。