Arena 성적표 속 GPT-5.5… Search 2위, Code Arena는 50점 상승

4월 27일 Arena.ai의 X 글은 OpenAI가 4월 23일 GPT-5.5를 내놓은 뒤 나온 첫 대형 외부 성적표 가운데 하나다. 이 점이 중요하다. 출시 글은 보통 연구소가 강조하고 싶은 장점을 보여주지만, 커뮤니티 평가는 실제 비교에서 모델이 어디에 서는지를 드러낸다.

“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”

Arena 계정은 예전 LMArena에서 이어진 커뮤니티 주도 벤치마크 채널로, 텍스트·검색·비전·코딩 영역의 순위를 자주 올린다. 이번 글의 장점도 단일 점수에 기대지 않는다는 데 있다. GPT-5.5는 Document Arena 6위, Text Arena 7위, Math 3위, Instruction Following 8위, Vision 5위, Search 2위로 적혔다. 한 줄로 요약하면 전반적으로 넓게 좋아졌지만, 등장하자마자 모든 리더보드를 휩쓴 형태는 아니다.

가장 해석이 필요한 숫자는 코딩이다. Code Arena 9위만 보면 평범해 보일 수 있다. 하지만 스레드는 GPT-5.5가 GPT-5.4보다 50포인트 상승했다고 못 박는다. 이 항목은 에이전트형 웹 개발 작업을 다루기 때문에, 순위보다 세대 간 점프 폭이 더 중요하다. 동시에 Expert Arena 5위라는 결과는 단순 채팅 감각보다 어려운 실무 프롬프트에서 강점을 보인다는 뜻으로 읽힌다.

이제 볼 것은 표본이 더 쌓였을 때 순위가 유지되는지, 그리고 더 높은 추론 설정에서 코딩 순위가 더 올라가는지다. 지금 단계의 결론은 간단하다. “GPT-5.5가 전부 이겼다”가 아니다. 코딩과 검색에서 특히 분명한 개선이 보이는, 꽤 균형 잡힌 업그레이드라는 것이다.

Arena 성적표 속 GPT-5.5… Search 2위, Code Arena는 50점 상승

Related Articles

Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

GPT-5.6 Sol, ChatGPT·Codex·API 전면 배포와 80.0 coding agent 지표

Related Articles

Arena, 1,000만 모델 투표를 $100M 평가 사업으로 전환
LLM Jun 30, 2026 1 min read

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회
LLM X/Twitter Jul 10, 2026 1 min read

GPT-5.6 Sol, ChatGPT·Codex·API 전면 배포와 80.0 coding agent 지표
LLM X/Twitter Jul 10, 2026 1 min read