Arena、1,000万件のモデル投票を年換算$100M事業へ
Original: Arena, the AI leaderboard everyone uses, is now a $100M business View original →
無料のAIモデルランキングが、モデル経済の有料インフラに変わり始めた。UC Berkeleyの研究プロジェクトから生まれたArenaは、商用評価サービスを始めて8カ月で年換算$100Mの売上規模に到達した。
Arenaの公開サイトでは、ユーザーがプロンプトを入力し、2つのモデルの回答を比べて良い方を選ぶ。この仕組みから作られるリーダーボードは、すでに1,000万件を超えるユーザー評価を基盤にしている。モデルの実力を、ベンチマーク用の設問ではなく実際の好みで測る点に価値がある。
同社は2025年9月、AI Evaluationsという商用サービスで収益化を始めた。モデル研究所や企業に、より深い性能分析を提供する。Arenaはこの数字をARRと呼ぶが、CEOのAnastasios Angelopoulosは、古典的な継続課金ではなく使用量ベースで請求していると説明している。会計上の意味は違っても、評価データへの支出が大きな予算項目になった事実は変わらない。
背景には、モデル選定の基準が細かくなったことがある。企業は単に総合点の高いモデルを欲しいわけではない。文章、coding、vision、画像生成、長時間のagent workflowなど、自分たちの作業でどのモデルが安定して勝つかを知りたい。
Arenaは2026年1月、$1.7Bのpost-money valuationで$150MのSeries Aを調達した時点で年換算売上が$30Mだった。そこから短期間で$100Mに伸びたことは、post-trainingとモデル調達の両側で評価データの重要性が増したことを示す。次の焦点は、公開投票型のデータが企業の非公開・業務特化の評価要求にどこまで応えられるかだ。
Related Articles
モデル選択は、静的leaderboardではなく実行時routingの問題になりつつある。OpenRouterはBenchmarks APIでArtificial AnalysisやDesign Arenaを含むlive scoreを取得でき、GLM-5.2がcodingとdesignで上位だと示した。
OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。
Open-weight LLMの争点は、単価比較からエージェント実装の設計へ移っている。OpenRouterはJune 2026の4モデルを挙げ、DeepSeek V4 FlashのSWE-bench 79.0%、GLM 5.2のAA Index 51、1M contextを具体例にした。