Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

Cursor가 X에서 강조한 것

Cursor는 2026년 3월 26일 Composer 2에 관한 추가 연구를 공유하면서, real-time reinforcement learning 덕분에 개선된 checkpoint를 5시간마다 ship할 수 있다고 밝혔다. 이 메시지가 강한 이유는 대부분의 model announcement가 benchmark snapshot이나 주기적 major release를 강조하는 것과 달리, Cursor는 deployment cadence에 가까운 학습 루프를 전면에 내세웠기 때문이다.

기술 보고서가 보여주는 구조

3월 27일 공개된 technical report에 따르면 Composer 2는 두 단계로 학습된다. 먼저 Kimi K2.5 위에서 code-heavy data mix로 continued pretraining을 수행해 coding knowledge를 강화하고, 그 다음 실제 Cursor product와 같은 tools와 harness를 쓰는 realistic session 안에서 대규모 RL을 적용한다. Cursor는 pretraining loss를 더 낮추면 downstream agent 성능이 좋아지고, RL은 average 결과뿐 아니라 best-of-K 성능까지 끌어올린다고 설명한다.

이 보고서는 왜 CursorBench를 만들었는지도 함께 설명한다. Cursor는 공개 coding benchmark가 과제를 지나치게 잘 정의하고, 실제 개발자가 agent에게 넘기는 모호하고 multi-file한 작업을 충분히 반영하지 못한다고 본다. 그래서 engineering team의 실제 session에서 CursorBench를 구성했고, Composer 2는 여기서 61.3을 기록하며 Composer 1.5 대비 37% 개선을 보였다고 한다. 같은 문서에는 SWE-bench Multilingual 73.7, Terminal-Bench 61.7도 제시된다.

왜 의미가 큰가

핵심은 benchmark 숫자 자체보다, coding agent의 승부처가 어디인지에 대한 주장이다. Cursor는 더 많은 pretraining token만이 아니라 production-like environment에서 얻는 촘촘한 feedback이 결정적이라고 말하고 있다. infrastructure 섹션은 multi-region asynchronous RL pipeline, Blackwell GPU용 low-precision kernel, 그리고 수십만 개의 sandboxed coding environment를 돌리는 내부 플랫폼 Anyrun을 설명한다.

만약 Cursor가 말한 것처럼 update cycle을 시간 단위로 압축할 수 있다면, 경쟁은 누가 더 큰 checkpoint를 내놓느냐에서 누가 실제 workflow를 더 빨리 그리고 안전하게 학습하느냐로 이동한다. 이는 Cursor 한 회사의 문제가 아니라, 앞으로 coding model이 tool use, environment fidelity, real-world evaluation을 중심으로 지속적으로 튜닝되는 방향으로 간다는 신호에 가깝다.

출처: Cursor on X, Cursor technical report.

Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개

Cursor가 X에서 강조한 것

기술 보고서가 보여주는 구조

왜 의미가 큰가

Related Articles

Cursor, Composer 2 technical report 공개하며 coding agent 학습 경로와 benchmark 수치 설명

Cursor, GPT-5.5를 CursorBench 72.8% 1위에 올리고 5월 2일까지 반값

DeepSWE 113개 과제, 코딩 에이전트 격차를 70% 대 54%로 벌린 새 평가 벤치마크

Comments (0)

Leave a Comment