Arena 성적표 속 GPT-5.5… Search 2위, Code Arena는 50점 상승
Original: Arena puts GPT-5.5 at #2 in search and +50 in Code Arena View original →
4월 27일 Arena.ai의 X 글은 OpenAI가 4월 23일 GPT-5.5를 내놓은 뒤 나온 첫 대형 외부 성적표 가운데 하나다. 이 점이 중요하다. 출시 글은 보통 연구소가 강조하고 싶은 장점을 보여주지만, 커뮤니티 평가는 실제 비교에서 모델이 어디에 서는지를 드러낸다.
“Code Arena: #9, a strong +50pt jump over GPT-5.4 … Search Arena: #2 … Expert Arena: #5.”
Arena 계정은 예전 LMArena에서 이어진 커뮤니티 주도 벤치마크 채널로, 텍스트·검색·비전·코딩 영역의 순위를 자주 올린다. 이번 글의 장점도 단일 점수에 기대지 않는다는 데 있다. GPT-5.5는 Document Arena 6위, Text Arena 7위, Math 3위, Instruction Following 8위, Vision 5위, Search 2위로 적혔다. 한 줄로 요약하면 전반적으로 넓게 좋아졌지만, 등장하자마자 모든 리더보드를 휩쓴 형태는 아니다.
가장 해석이 필요한 숫자는 코딩이다. Code Arena 9위만 보면 평범해 보일 수 있다. 하지만 스레드는 GPT-5.5가 GPT-5.4보다 50포인트 상승했다고 못 박는다. 이 항목은 에이전트형 웹 개발 작업을 다루기 때문에, 순위보다 세대 간 점프 폭이 더 중요하다. 동시에 Expert Arena 5위라는 결과는 단순 채팅 감각보다 어려운 실무 프롬프트에서 강점을 보인다는 뜻으로 읽힌다.
이제 볼 것은 표본이 더 쌓였을 때 순위가 유지되는지, 그리고 더 높은 추론 설정에서 코딩 순위가 더 올라가는지다. 지금 단계의 결론은 간단하다. “GPT-5.5가 전부 이겼다”가 아니다. 코딩과 검색에서 특히 분명한 개선이 보이는, 꽤 균형 잡힌 업그레이드라는 것이다.
Related Articles
HN은 GPT-5.5를 또 하나의 모델 출시보다 컴퓨터 일을 얼마나 끝까지 맡길 수 있나의 시험대로 읽었다. 댓글도 벤치마크보다 롤아웃, API 시점, 실제 코딩 워크플로 투입 가능성에 더 오래 머물렀다.
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
OpenAI가 내세운 핵심은 단순 성능 업데이트가 아니다. Terminal-Bench 2.0 82.7%, SWE-Bench Pro 58.6%와 함께 GPT-5.4급 지연을 유지한다고 밝히며, 길고 지저분한 작업을 맡기는 코딩 에이전트 경쟁의 기준을 다시 올렸다.
Comments (0)
No comments yet. Be the first to comment!