오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축
Original: The Open Weight Models that Matter: June 2026 View original →
오픈 weight 모델 논쟁의 무게중심이 “쓸 만한가”에서 “어떤 업무에 닫힌 frontier model을 대체할 수 있나”로 옮겨갔다. OpenRouter의 6월 분석은 이 변화를 네 모델로 압축한다. DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra가 각각 가격, planning, multimodal, 배포 stack을 대표한다는 진단이다.
DeepSeek V4 Flash는 비용 쪽에서 가장 공격적인 사례다. OpenRouter는 이 모델을 약 284B parameter, 약 13B active MoE, 1M-token context, MIT license 모델로 설명한다. SWE-bench Verified 점수는 79.0%로, 더 큰 V4 Pro의 80.6%에 1.6 point 안쪽까지 붙었다. 첫-party API 가격은 million token당 $0.14 입력, $0.28 출력으로 제시됐고, cache 적용 입력가는 $0.029까지 내려간다. 대신 first-party API는 데이터가 중국을 거치고 training에 쓰일 수 있다는 조건이 붙는다.
GLM 5.2는 품질과 planning 쪽의 후보로 제시됐다. Artificial Analysis Intelligence Index v4.1에서 51점을 받아 오픈 weight 중 1위로 적혔고, GDPval-AA v2에서는 GPT-5.5 xhigh와 사실상 비슷한 수준이라는 설명이 붙었다. 가격은 OpenRouter weighted average 기준 million token당 $0.447 입력, $3.31 출력으로 DeepSeek보다 높지만, agentic coding과 장기 planning에서는 더 가까운 대체재로 거론된다.
MiniMax M3의 차별점은 text-only가 아니라 image와 video를 native로 읽는다는 점이다. screenshot, UI state, diagram, document, video를 함께 다뤄야 하는 agent라면 text-only coding model과 선택 기준이 달라진다. NVIDIA Nemotron 3 Ultra는 미국산 오픈 weight 모델로서 enterprise 배포와 NVIDIA stack을 전면에 둔다. 550B / 55B-active hybrid Mamba-2 + Transformer MoE, 1M context, NVFP4, Multi-Token Prediction, OpenMDW license가 핵심이다.
OpenRouter의 결론은 닫힌 frontier lab이 오픈 weight 진영을 멀리 따돌리고 있지 않다는 것이다. 격차는 18개월 넘게 3~6개월 수준으로 유지됐다는 관찰도 덧붙였다. 기업 입장에서는 성능 1위만 볼 문제가 아니다. 데이터 정책, host 국가, throughput, license, output token 비용까지 합쳐 모델 선택표가 다시 짜이고 있다.
Related Articles
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.
모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.
토큰 사용량과 투자자 구성이 함께 주목을 받았다. HN 댓글의 관심은 “모델 라우터가 독립 인프라로 남을 수 있나”에 모였다.