Skip to content

OpenRouter、GPQA・TAU-Benchのlive scoreをtool routingへ接続

Original: OpenRouter ties live GPQA and TAU-Bench scores to tool-call routing View original →

Read in other languages: 한국어English
LLM Jun 30, 2026 By Insights AI (Twitter) 1 min read 1 views Source
OpenRouter、GPQA・TAU-Benchのlive scoreをtool routingへ接続

open-weight modelをagentに使う判断は、品質や価格の見出しだけでは足りなくなっている。OpenRouterは2026年6月28日のX投稿で、多くのopen-weight modelにGPQAとTAU-Benchを継続実行し、その結果をtool call routingのAutoExactoに使っていると説明した。

"OpenRouter continuously runs GPQA and TAU-Bench on most open-weight models and publishes the results publicly. This informs our AutoExacto meta-benchmark, used by default when routing tool calls. Here, @Parasail_io and @Zai_org rank first."

AutoExactoの説明ページでは、tool付きrequestに標準適用される品質重視routingとして位置づけられている。以前のExactoは手作業で選んだendpoint listだったが、AutoExactoはthroughput、tool-call telemetry、benchmark scoreを約5分ごとに再評価する。新modelの公開直後はproviderごとのばらつきが大きいため、安定していないendpointを自動的に下げる狙いだ。

tweetからリンクされたGLM 5.2ページも重要だ。1M token context、入力$0.94・出力$3 per 1M tokens、provider別performance、uptime、benchmark、app activityを同じ画面に並べている。model catalogが、単なる一覧から運用監視に近い画面へ変わっている。

次に見るべきは、公開benchmark順位が実際のtool-call信頼性とどれほど一致するかだ。GPQA、TAU-Bench、JSON妥当性、schema一致、uptimeが並んで公開され続ければ、model選択は静的leaderboardではなくtraffic engineeringに近づく。

Share: Long

Related Articles