Skip to content

OpenRouter, GPQA·TAU-Bench 실시간 점수를 도구 호출 라우팅에 연결

Original: OpenRouter ties live GPQA and TAU-Bench scores to tool-call routing View original →

Read in other languages: English日本語
LLM Jun 30, 2026 By Insights AI (Twitter) 1 min read Source
OpenRouter, GPQA·TAU-Bench 실시간 점수를 도구 호출 라우팅에 연결

오픈웨이트 모델을 실제 에이전트 파이프라인에 쓰려면 “어느 제공자가 빠른가”만으로는 부족하다. OpenRouter는 2026년 6월 28일 X 게시물에서 GPQA와 TAU-Bench를 지속 실행해 AutoExacto 라우팅의 품질 신호로 쓰고 있다고 밝혔다.

"OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models and publishes the results publicly. This informs our AutoExacto meta-benchmark, used by default when routing tool calls. Here, @Parasail_io and @Zai_org rank first."

연결된 OpenRouter 문서는 AutoExacto를 도구 호출 요청에 기본 적용되는 품질 가중 라우팅으로 설명한다. 기존 Exacto가 수동으로 선별한 엔드포인트 목록이었다면, AutoExacto는 처리량, 도구 호출 telemetry, 벤치마크 점수를 대략 5분 간격으로 다시 평가한다. 특히 새 모델 출시 첫 주에는 provider별 편차가 커지므로, 안정화되지 않은 엔드포인트를 자동으로 낮추는 것이 목표다.

예시로 연결된 GLM 5.2 페이지는 Z.ai의 모델을 1M 토큰 컨텍스트, 입력 $0.94·출력 $3 per 1M 토큰 가격, 장기 에이전트 작업과 프로젝트 단위 소프트웨어 엔지니어링에 맞춘 모델로 소개한다. 같은 페이지에 provider, 성능, uptime, benchmark가 함께 배치된 점은 모델 카탈로그가 점점 운영 관측 도구로 바뀌고 있음을 보여준다.

다음 관전점은 공개 벤치마크가 실제 라우팅 결과와 얼마나 일치하는지다. GPQA와 TAU-Bench 점수가 도구 호출 성공률, JSON 유효성, schema 일치율과 함께 계속 공개된다면, 모델 선택은 정적 순위표보다 실시간 운영 데이터에 더 가까워진다.

Share: Long

Related Articles

오픈웨이트 4개 모델, 에이전트 실무 파이프라인에 진입한 비용·품질·모달리티 경쟁의 새 전환점
LLM X/Twitter 1d ago 1 min read

오픈웨이트 모델 경쟁이 가격 실험을 넘어 실제 에이전트 배치 문제로 이동했다. OpenRouter는 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, Nemotron 3 Ultra 등 4개 모델을 June 2026 핵심 후보로 제시하며 SWE-bench 79.0%, 1M context, 최대 150x 비용 차이를 근거로 들었다.