오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점
Original: Four open-weight models cross into real agentic pipelines View original →
에이전트 실무로 들어온 오픈웨이트 4개 모델
오픈웨이트 LLM은 더 이상 “싼 대체재”라는 한 줄 설명으로 끝나지 않는다. OpenRouter는 2026년 6월 27일 19:40:46 UTC에 올린 글에서 4개 open-weight models가 실제 agentic pipeline에 투입되는 수준으로 올라왔다고 밝혔다. 핵심은 모델 이름보다 배치 조건이다. DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra가 서로 다른 가격, 품질, 모달리티, 배포 통제 조건을 놓고 기업 워크로드의 후보군으로 들어왔다는 주장이다.
“real agentic pipelines”
OpenRouter 계정은 모델 라우팅, 가격, 벤치마크, 사용량 데이터를 자주 공개하는 인프라 성격의 채널이다. 이번 트윗은 OpenRouter Insights 블로그의 2026년 6월 분석으로 이어진다. 그 글은 DeepSeek V4 Flash를 약 284B parameter / 약 13B active MoE, 1M-token context 모델로 설명하고, SWE-bench Verified 79.0%를 기록해 V4 Pro의 80.6%와 약 1.6포인트 차이에 머문다고 적었다. 동시에 first-party API 기준 출력 비용이 GPT-5.5보다 대략 150x 낮다는 비교를 붙였다.
가격, 품질, 모달리티가 갈라진 선택지
GLM 5.2는 Artificial Analysis Intelligence Index v4.1에서 open-weight 모델 중 51점으로 1위라고 정리됐다. OpenRouter 모델 페이지도 GLM 5.2가 1M-token context를 지원하고, long-horizon agent workflows와 project-level software engineering에 맞는 reasoning model이라고 설명한다. MiniMax M3는 image와 video 입력을 다루는 long-context 후보로, Nemotron 3 Ultra는 550B / 55B-active hybrid Mamba-2 + Transformer MoE와 NVIDIA stack을 앞세운 미국 open-weight 선택지로 배치됐다.
이 흐름에서 중요한 변화는 벤치마크가 단독 순위표가 아니라 routing policy와 procurement 조건으로 연결된다는 점이다. OpenRouter는 공개 model page에서 provider, effective pricing, throughput, uptime, benchmark, activity를 함께 보여준다. 같은 모델이라도 데이터 보존 정책, 국가, 캐시 가격, 처리량이 달라지고, 에이전트가 장시간 실행될수록 토큰 단가보다 실패율과 지연 시간이 더 큰 비용이 된다.
다음 관전점은 4개 모델이 실제 고객 워크로드에서 얼마나 오래 유지되는지다. DeepSeek는 비용, GLM은 planning quality, MiniMax는 multimodal long context, Nemotron은 enterprise deployment stack으로 포지션이 갈린다. 출처: OpenRouter source tweet · OpenRouter Insights blog · GLM 5.2 model page
Related Articles
OpenRouter는 6월 오픈 weight 모델 흐름을 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra 네 축으로 정리했다. 핵심 숫자는 SWE-bench Verified 79.0%, Intelligence Index 51, 1M context, 그리고 frontier API 대비 큰 가격 차이다.
모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.