Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환

AI 모델 순위를 보던 무료 사이트가 이제 모델 성능을 사고파는 시장의 가격표가 됐다. UC Berkeley 연구 프로젝트에서 출발한 Arena는 상용 서비스 출시 8개월 만에 연환산 매출 $100M에 도달했고, 이 숫자는 모델 평가와 post-training이 독립적인 대형 사업으로 커졌다는 신호다.

TechCrunch 보도에 따르면 Arena의 공개 리더보드는 1,000만 건이 넘는 사용자 평가를 기반으로 한다. 사용자는 같은 프롬프트에 답한 두 모델을 비교하고 더 나은 답을 고른다. 이 흐름이 모델 랩과 기업에게는 더 세밀한 성능 분석 데이터가 된다.

Arena는 2025년 9월 AI Evaluations 서비스를 내놓으며 상용화를 시작했다. 회사는 이 매출을 ARR이라고 부르지만, CEO Anastasios Angelopoulos는 고객에게 반복 구독이 아니라 사용량 기반으로 비용을 청구한다고 설명했다. 전통적 SaaS ARR과는 성격이 다르지만, 8개월 만의 $100M run-rate라는 크기는 무시하기 어렵다.

성장의 배경에는 모델 경쟁 방식의 변화가 있다. frontier 모델은 더 이상 단일 벤치마크 점수만으로 팔리지 않는다. 텍스트, 코딩, 비전, 이미지 생성, 장시간 agent workflow 같은 세부 영역에서 실제 사용자가 어떤 출력을 선호하는지가 제품과 조달의 기준이 된다.

Arena는 2026년 1월 $150M Series A를 $1.7B post-money valuation으로 유치했을 때 연환산 매출이 $30M이었다. 이번 수치는 몇 달 만에 평가 데이터 수요가 세 배 이상 커졌다는 의미다. 모델을 만드는 회사도, 모델을 사는 기업도 이제 “누가 더 똑똑한가”보다 “내 작업에서 어느 모델이 반복적으로 이기는가”를 묻고 있다.

Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환

Related Articles

OpenRouter Benchmarks API, 에이전트가 실시간 모델 순위를 조회하는 경로 제공

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

GitHub Copilot 하네스, 5개 코딩 벤치마크에서 토큰 효율성 제시