오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

에이전트 실무로 들어온 오픈웨이트 4개 모델

오픈웨이트 LLM은 더 이상 “싼 대체재”라는 한 줄 설명으로 끝나지 않는다. OpenRouter는 2026년 6월 27일 19:40:46 UTC에 올린 글에서 4개 open-weight models가 실제 agentic pipeline에 투입되는 수준으로 올라왔다고 밝혔다. 핵심은 모델 이름보다 배치 조건이다. DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra가 서로 다른 가격, 품질, 모달리티, 배포 통제 조건을 놓고 기업 워크로드의 후보군으로 들어왔다는 주장이다.

“real agentic pipelines”

OpenRouter 계정은 모델 라우팅, 가격, 벤치마크, 사용량 데이터를 자주 공개하는 인프라 성격의 채널이다. 이번 트윗은 OpenRouter Insights 블로그의 2026년 6월 분석으로 이어진다. 그 글은 DeepSeek V4 Flash를 약 284B parameter / 약 13B active MoE, 1M-token context 모델로 설명하고, SWE-bench Verified 79.0%를 기록해 V4 Pro의 80.6%와 약 1.6포인트 차이에 머문다고 적었다. 동시에 first-party API 기준 출력 비용이 GPT-5.5보다 대략 150x 낮다는 비교를 붙였다.

가격, 품질, 모달리티가 갈라진 선택지

GLM 5.2는 Artificial Analysis Intelligence Index v4.1에서 open-weight 모델 중 51점으로 1위라고 정리됐다. OpenRouter 모델 페이지도 GLM 5.2가 1M-token context를 지원하고, long-horizon agent workflows와 project-level software engineering에 맞는 reasoning model이라고 설명한다. MiniMax M3는 image와 video 입력을 다루는 long-context 후보로, Nemotron 3 Ultra는 550B / 55B-active hybrid Mamba-2 + Transformer MoE와 NVIDIA stack을 앞세운 미국 open-weight 선택지로 배치됐다.

이 흐름에서 중요한 변화는 벤치마크가 단독 순위표가 아니라 routing policy와 procurement 조건으로 연결된다는 점이다. OpenRouter는 공개 model page에서 provider, effective pricing, throughput, uptime, benchmark, activity를 함께 보여준다. 같은 모델이라도 데이터 보존 정책, 국가, 캐시 가격, 처리량이 달라지고, 에이전트가 장시간 실행될수록 토큰 단가보다 실패율과 지연 시간이 더 큰 비용이 된다.

다음 관전점은 4개 모델이 실제 고객 워크로드에서 얼마나 오래 유지되는지다. DeepSeek는 비용, GLM은 planning quality, MiniMax는 multimodal long context, Nemotron은 enterprise deployment stack으로 포지션이 갈린다. 출처: OpenRouter source tweet · OpenRouter Insights blog · GLM 5.2 model page

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

에이전트 실무로 들어온 오픈웨이트 4개 모델

가격, 품질, 모달리티가 갈라진 선택지

Related Articles

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

Fusion API, Fable 5급 연구 성능을 절반 가격으로 겨냥