Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값

코딩 에이전트 시장에서 중요한 건 “새 모델이 들어왔다”가 아니다. 실제 개발 흐름에서 더 잘 풀리는지, 그리고 그 성능을 감당할 가격인지가 핵심이다. Cursor는 4월 24일 X에 올린 글에서 GPT-5.5가 현재 자사 평가인 CursorBench에서 72.8%로 가장 높은 점수를 기록하고 있으며, 5월 2일까지 50% 할인 가격으로 제공된다고 적었다. 모델 성능과 비용을 한 문장에 묶어 던진 셈이다.

“It’s currently the top model on CursorBench at 72.8%.”

해당 문구는 소스 트윗의 핵심이다. 같은 날 열린 Cursor 포럼 글에서는 이 프로모션이 5월 2일 종료라고 정리했고, 정가 기준 토큰 가격도 공개했다. 입력은 100만 토큰당 5달러, 캐시 입력은 0.50달러, 출력은 30달러이며, 할인 적용 시 각각 2.50달러, 0.25달러, 15달러가 된다. 고성능 모델을 써보고 싶지만 출력 토큰 단가가 부담이던 개발자에게는 꽤 직접적인 신호다.

여기서 CursorBench가 왜 나오느냐도 중요하다. Cursor는 3월 11일 공개한 설명 글에서 이 벤치마크가 공용 저장소 문제가 아니라 자사 엔지니어링 팀의 실제 Cursor 세션을 바탕으로 만들어졌다고 설명했다. 태스크는 짧고 애매한 요청이 많고, 여러 파일과 도구를 넘나드는 작업이 포함된다. 회사는 CursorBench-3의 문제 범위가 초기 버전보다 대략 두 배로 커졌고, 공개 벤치마크보다 프런티어 모델 사이의 차이를 더 잘 벌려준다고 주장한다.

물론 이 수치를 독립 리더보드처럼 받아들이면 곤란하다. CursorBench는 Cursor가 만들고 채점 체계도 내부적으로 운영하는 평가다. 다만 완전히 무시하기도 어렵다. 실제 사용자 세션에서 나온 과제를 바탕으로 하고, 공용 벤치마크가 포화되거나 오염 논란을 겪는 구간에서 제품 체감과 더 가깝다고 회사가 설명하기 때문이다. 개발자 입장에서는 “보편적 왕좌”보다 “내가 쓰는 IDE 안에서 실제로 더 낫나”가 더 중요할 때가 많다.

cursor_ai 계정은 보통 에이전트 창 기능, 릴리스 노트, 자체 평가 방법론을 묶어서 올린다. 이번 게시물도 같은 패턴이다. 다음으로 볼 부분은 72.8%가 실제 장기 작업 성공률과 얼마나 맞물리는지, 할인 종료 뒤 가격 경쟁력이 유지되는지, 그리고 다른 툴들이 비슷한 내부 벤치마크를 얼마나 투명하게 공개하는지다. 1차 출처는 트윗, 보강 정보는 포럼과 CursorBench 설명 글이다.

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회
LLM X/Twitter Jul 10, 2026 1 min read

Claude Opus 5, Fable급 코딩 성능을 절반 가격대로 낮춘 일상형 고성능 모델
일상형 고성능 모델 경쟁의 초점이 최고점보다 비용당 성능으로 옮겨갔다. Claude Opus 5는 Fable 5에 가까운 코딩·지식 작업 성능을 절반 가격으로 내세우며, API 가격은 입력 $5/M·출력 $25/M 토큰으로 책정됐다.

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개
LLM X/Twitter Apr 5, 2026 1 min read