OpenRouter, GPQA·TAU-Bench 실시간 점수를 도구 호출 라우팅에 연결

오픈웨이트 모델을 실제 에이전트 파이프라인에 쓰려면 “어느 제공자가 빠른가”만으로는 부족하다. OpenRouter는 2026년 6월 28일 X 게시물에서 GPQA와 TAU-Bench를 지속 실행해 AutoExacto 라우팅의 품질 신호로 쓰고 있다고 밝혔다.

"OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models and publishes the results publicly. This informs our AutoExacto meta-benchmark, used by default when routing tool calls. Here, @Parasail_io and @Zai_org rank first."

연결된 OpenRouter 문서는 AutoExacto를 도구 호출 요청에 기본 적용되는 품질 가중 라우팅으로 설명한다. 기존 Exacto가 수동으로 선별한 엔드포인트 목록이었다면, AutoExacto는 처리량, 도구 호출 telemetry, 벤치마크 점수를 대략 5분 간격으로 다시 평가한다. 특히 새 모델 출시 첫 주에는 provider별 편차가 커지므로, 안정화되지 않은 엔드포인트를 자동으로 낮추는 것이 목표다.

예시로 연결된 GLM 5.2 페이지는 Z.ai의 모델을 1M 토큰 컨텍스트, 입력 $0.94·출력 $3 per 1M 토큰 가격, 장기 에이전트 작업과 프로젝트 단위 소프트웨어 엔지니어링에 맞춘 모델로 소개한다. 같은 페이지에 provider, 성능, uptime, benchmark가 함께 배치된 점은 모델 카탈로그가 점점 운영 관측 도구로 바뀌고 있음을 보여준다.

다음 관전점은 공개 벤치마크가 실제 라우팅 결과와 얼마나 일치하는지다. GPQA와 TAU-Bench 점수가 도구 호출 성공률, JSON 유효성, schema 일치율과 함께 계속 공개된다면, 모델 선택은 정적 순위표보다 실시간 운영 데이터에 더 가까워진다.

LLM 2d ago 1 min read

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

OpenRouter는 6월 오픈 weight 모델 흐름을 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra 네 축으로 정리했다. 핵심 숫자는 SWE-bench Verified 79.0%, Intelligence Index 51, 1M context, 그리고 frontier API 대비 큰 가격 차이다.

#openrouter #open-weight #llm

LLM X/Twitter 1d ago 1 min read

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

오픈웨이트 모델 경쟁이 가격 실험을 넘어 실제 에이전트 배치 문제로 이동했다. OpenRouter는 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, Nemotron 3 Ultra 등 4개 모델을 June 2026 핵심 후보로 제시하며 SWE-bench 79.0%, 1M context, 최대 150x 비용 차이를 근거로 들었다.

#openrouter #open-weight #benchmarks

LLM X/Twitter 4d ago 1 min read

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.

#openrouter #benchmarks #glm-5.2

Related Articles

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공