Arena 성적표 속 GPT-5.5… Search 2위, Code Arena는 50점 상승
Original: Arena puts GPT-5.5 at #2 in search and +50 in Code Arena View original →
4월 27일 Arena.ai의 X 글은 OpenAI가 4월 23일 GPT-5.5를 내놓은 뒤 나온 첫 대형 외부 성적표 가운데 하나다. 이 점이 중요하다. 출시 글은 보통 연구소가 강조하고 싶은 장점을 보여주지만, 커뮤니티 평가는 실제 비교에서 모델이 어디에 서는지를 드러낸다.
“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”
Arena 계정은 예전 LMArena에서 이어진 커뮤니티 주도 벤치마크 채널로, 텍스트·검색·비전·코딩 영역의 순위를 자주 올린다. 이번 글의 장점도 단일 점수에 기대지 않는다는 데 있다. GPT-5.5는 Document Arena 6위, Text Arena 7위, Math 3위, Instruction Following 8위, Vision 5위, Search 2위로 적혔다. 한 줄로 요약하면 전반적으로 넓게 좋아졌지만, 등장하자마자 모든 리더보드를 휩쓴 형태는 아니다.
가장 해석이 필요한 숫자는 코딩이다. Code Arena 9위만 보면 평범해 보일 수 있다. 하지만 스레드는 GPT-5.5가 GPT-5.4보다 50포인트 상승했다고 못 박는다. 이 항목은 에이전트형 웹 개발 작업을 다루기 때문에, 순위보다 세대 간 점프 폭이 더 중요하다. 동시에 Expert Arena 5위라는 결과는 단순 채팅 감각보다 어려운 실무 프롬프트에서 강점을 보인다는 뜻으로 읽힌다.
이제 볼 것은 표본이 더 쌓였을 때 순위가 유지되는지, 그리고 더 높은 추론 설정에서 코딩 순위가 더 올라가는지다. 지금 단계의 결론은 간단하다. “GPT-5.5가 전부 이겼다”가 아니다. 코딩과 검색에서 특히 분명한 개선이 보이는, 꽤 균형 잡힌 업그레이드라는 것이다.
Related Articles
r/MachineLearning의 관심은 “코드가 없는 SOTA”를 leaderboard에 어떻게 넣을지라는 현실적인 문제에 모였다.
Codex가 몇 분짜리 보조 도구에서 몇 시간·며칠 단위 작업을 맡는 기업 에이전트로 이동한다. OpenAI는 Codex 주간 이용자가 500만 명을 넘고 올해 초보다 400% 늘었다며, Ona의 200만 개발자용 클라우드 실행 경험을 핵심 근거로 제시했다.
OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.