오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

오픈 weight 모델 논쟁의 무게중심이 “쓸 만한가”에서 “어떤 업무에 닫힌 frontier model을 대체할 수 있나”로 옮겨갔다. OpenRouter의 6월 분석은 이 변화를 네 모델로 압축한다. DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra가 각각 가격, planning, multimodal, 배포 stack을 대표한다는 진단이다.

DeepSeek V4 Flash는 비용 쪽에서 가장 공격적인 사례다. OpenRouter는 이 모델을 약 284B parameter, 약 13B active MoE, 1M-token context, MIT license 모델로 설명한다. SWE-bench Verified 점수는 79.0%로, 더 큰 V4 Pro의 80.6%에 1.6 point 안쪽까지 붙었다. 첫-party API 가격은 million token당 $0.14 입력, $0.28 출력으로 제시됐고, cache 적용 입력가는 $0.029까지 내려간다. 대신 first-party API는 데이터가 중국을 거치고 training에 쓰일 수 있다는 조건이 붙는다.

GLM 5.2는 품질과 planning 쪽의 후보로 제시됐다. Artificial Analysis Intelligence Index v4.1에서 51점을 받아 오픈 weight 중 1위로 적혔고, GDPval-AA v2에서는 GPT-5.5 xhigh와 사실상 비슷한 수준이라는 설명이 붙었다. 가격은 OpenRouter weighted average 기준 million token당 $0.447 입력, $3.31 출력으로 DeepSeek보다 높지만, agentic coding과 장기 planning에서는 더 가까운 대체재로 거론된다.

MiniMax M3의 차별점은 text-only가 아니라 image와 video를 native로 읽는다는 점이다. screenshot, UI state, diagram, document, video를 함께 다뤄야 하는 agent라면 text-only coding model과 선택 기준이 달라진다. NVIDIA Nemotron 3 Ultra는 미국산 오픈 weight 모델로서 enterprise 배포와 NVIDIA stack을 전면에 둔다. 550B / 55B-active hybrid Mamba-2 + Transformer MoE, 1M context, NVFP4, Multi-Token Prediction, OpenMDW license가 핵심이다.

OpenRouter의 결론은 닫힌 frontier lab이 오픈 weight 진영을 멀리 따돌리고 있지 않다는 것이다. 격차는 18개월 넘게 3~6개월 수준으로 유지됐다는 관찰도 덧붙였다. 기업 입장에서는 성능 1위만 볼 문제가 아니다. 데이터 정책, host 국가, throughput, license, output token 비용까지 합쳐 모델 선택표가 다시 짜이고 있다.

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

Related Articles

Fusion API, Fable 5급 연구 성능을 절반 가격으로 겨냥

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

OpenRouter 1,1300만 달러 Series B, multi-model gateway 수요의 숫자