Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환
Original: Arena, the AI leaderboard everyone uses, is now a $100M business View original →
AI 모델 순위를 보던 무료 사이트가 이제 모델 성능을 사고파는 시장의 가격표가 됐다. UC Berkeley 연구 프로젝트에서 출발한 Arena는 상용 서비스 출시 8개월 만에 연환산 매출 $100M에 도달했고, 이 숫자는 모델 평가와 post-training이 독립적인 대형 사업으로 커졌다는 신호다.
TechCrunch 보도에 따르면 Arena의 공개 리더보드는 1,000만 건이 넘는 사용자 평가를 기반으로 한다. 사용자는 같은 프롬프트에 답한 두 모델을 비교하고 더 나은 답을 고른다. 이 흐름이 모델 랩과 기업에게는 더 세밀한 성능 분석 데이터가 된다.
Arena는 2025년 9월 AI Evaluations 서비스를 내놓으며 상용화를 시작했다. 회사는 이 매출을 ARR이라고 부르지만, CEO Anastasios Angelopoulos는 고객에게 반복 구독이 아니라 사용량 기반으로 비용을 청구한다고 설명했다. 전통적 SaaS ARR과는 성격이 다르지만, 8개월 만의 $100M run-rate라는 크기는 무시하기 어렵다.
성장의 배경에는 모델 경쟁 방식의 변화가 있다. frontier 모델은 더 이상 단일 벤치마크 점수만으로 팔리지 않는다. 텍스트, 코딩, 비전, 이미지 생성, 장시간 agent workflow 같은 세부 영역에서 실제 사용자가 어떤 출력을 선호하는지가 제품과 조달의 기준이 된다.
Arena는 2026년 1월 $150M Series A를 $1.7B post-money valuation으로 유치했을 때 연환산 매출이 $30M이었다. 이번 수치는 몇 달 만에 평가 데이터 수요가 세 배 이상 커졌다는 의미다. 모델을 만드는 회사도, 모델을 사는 기업도 이제 “누가 더 똑똑한가”보다 “내 작업에서 어느 모델이 반복적으로 이기는가”를 묻고 있다.
Related Articles
모델 선택이 정적 리더보드에서 실행 중 라우팅 문제로 바뀌고 있다. OpenRouter는 Benchmarks API로 Artificial Analysis와 Design Arena 등 실시간 점수를 에이전트가 조회할 수 있게 했고, GLM-5.2가 코딩과 디자인 모두에서 최상위라고 적었다.
OpenRouter는 6월 오픈 weight 모델 흐름을 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra 네 축으로 정리했다. 핵심 숫자는 SWE-bench Verified 79.0%, Intelligence Index 51, 1M context, 그리고 frontier API 대비 큰 가격 차이다.
GitHub이 Copilot agentic harness를 SWE-bench Verified, SWE-bench Pro, SkillsBench, TerminalBench, Win-Hill에서 비교했다. 같은 모델·같은 과제 조건에서 해결률은 모델 기본 하네스와 비슷했고, 대부분의 구성에서 토큰 사용량은 더 낮았다는 점이 핵심이다.