Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값
Original: Cursor puts GPT-5.5 on top of CursorBench with a 72.8% score View original →
코딩 에이전트 시장에서 중요한 건 “새 모델이 들어왔다”가 아니다. 실제 개발 흐름에서 더 잘 풀리는지, 그리고 그 성능을 감당할 가격인지가 핵심이다. Cursor는 4월 24일 X에 올린 글에서 GPT-5.5가 현재 자사 평가인 CursorBench에서 72.8%로 가장 높은 점수를 기록하고 있으며, 5월 2일까지 50% 할인 가격으로 제공된다고 적었다. 모델 성능과 비용을 한 문장에 묶어 던진 셈이다.
“It’s currently the top model on CursorBench at 72.8%.”
해당 문구는 소스 트윗의 핵심이다. 같은 날 열린 Cursor 포럼 글에서는 이 프로모션이 5월 2일 종료라고 정리했고, 정가 기준 토큰 가격도 공개했다. 입력은 100만 토큰당 5달러, 캐시 입력은 0.50달러, 출력은 30달러이며, 할인 적용 시 각각 2.50달러, 0.25달러, 15달러가 된다. 고성능 모델을 써보고 싶지만 출력 토큰 단가가 부담이던 개발자에게는 꽤 직접적인 신호다.
여기서 CursorBench가 왜 나오느냐도 중요하다. Cursor는 3월 11일 공개한 설명 글에서 이 벤치마크가 공용 저장소 문제가 아니라 자사 엔지니어링 팀의 실제 Cursor 세션을 바탕으로 만들어졌다고 설명했다. 태스크는 짧고 애매한 요청이 많고, 여러 파일과 도구를 넘나드는 작업이 포함된다. 회사는 CursorBench-3의 문제 범위가 초기 버전보다 대략 두 배로 커졌고, 공개 벤치마크보다 프런티어 모델 사이의 차이를 더 잘 벌려준다고 주장한다.
물론 이 수치를 독립 리더보드처럼 받아들이면 곤란하다. CursorBench는 Cursor가 만들고 채점 체계도 내부적으로 운영하는 평가다. 다만 완전히 무시하기도 어렵다. 실제 사용자 세션에서 나온 과제를 바탕으로 하고, 공용 벤치마크가 포화되거나 오염 논란을 겪는 구간에서 제품 체감과 더 가깝다고 회사가 설명하기 때문이다. 개발자 입장에서는 “보편적 왕좌”보다 “내가 쓰는 IDE 안에서 실제로 더 낫나”가 더 중요할 때가 많다.
cursor_ai 계정은 보통 에이전트 창 기능, 릴리스 노트, 자체 평가 방법론을 묶어서 올린다. 이번 게시물도 같은 패턴이다. 다음으로 볼 부분은 72.8%가 실제 장기 작업 성공률과 얼마나 맞물리는지, 할인 종료 뒤 가격 경쟁력이 유지되는지, 그리고 다른 툴들이 비슷한 내부 벤치마크를 얼마나 투명하게 공개하는지다. 1차 출처는 트윗, 보강 정보는 포럼과 CursorBench 설명 글이다.
Related Articles
OpenAI가 겨냥한 지점은 채팅이 아니라 장기 작업 자동화다. 공개 수치 기준으로 GPT-5.5는 Terminal-Bench 2.0에서 82.7%를 기록해 GPT-5.4보다 7.6%p 높았고, Codex에서는 더 적은 토큰으로 같은 일을 밀어붙인다고 적었다.
Cursor는 2026년 3월 26일 real-time RL을 통해 5시간마다 개선된 checkpoint를 배포할 수 있다고 밝혔다. Cursor의 3월 27일 technical report는 Composer 2가 Kimi K2.5 기반 continued pretraining과 realistic Cursor session에서의 대규모 RL을 결합하며, CursorBench 61.3, SWE-bench Multilingual 73.7, Terminal-Bench 61.7을 기록했다고 설명한다.
중요한 점은 GPT-5.5 출시 직후 나온 첫 외부 benchmark readout 가운데 하나라는 점이다. Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차 선두로 올라섰지만 전체 지수 실행 비용은 여전히 약 20% 비싸졌다고 적었다.
Comments (0)
No comments yet. Be the first to comment!