Cursor, 사전학습 연장부터 실제 워크플로 RL까지 Composer 2 학습 스택 공개
Original: Earlier this week, we published our technical report on Composer 2. We're sharing additional research on how we train new checkpoints. With real-time RL, we can ship improved versions of the model every five hours. View original →
Cursor가 X에서 강조한 것
Cursor는 2026년 3월 26일 Composer 2에 관한 추가 연구를 공유하면서, real-time reinforcement learning 덕분에 개선된 checkpoint를 5시간마다 ship할 수 있다고 밝혔다. 이 메시지가 강한 이유는 대부분의 model announcement가 benchmark snapshot이나 주기적 major release를 강조하는 것과 달리, Cursor는 deployment cadence에 가까운 학습 루프를 전면에 내세웠기 때문이다.
기술 보고서가 보여주는 구조
3월 27일 공개된 technical report에 따르면 Composer 2는 두 단계로 학습된다. 먼저 Kimi K2.5 위에서 code-heavy data mix로 continued pretraining을 수행해 coding knowledge를 강화하고, 그 다음 실제 Cursor product와 같은 tools와 harness를 쓰는 realistic session 안에서 대규모 RL을 적용한다. Cursor는 pretraining loss를 더 낮추면 downstream agent 성능이 좋아지고, RL은 average 결과뿐 아니라 best-of-K 성능까지 끌어올린다고 설명한다.
이 보고서는 왜 CursorBench를 만들었는지도 함께 설명한다. Cursor는 공개 coding benchmark가 과제를 지나치게 잘 정의하고, 실제 개발자가 agent에게 넘기는 모호하고 multi-file한 작업을 충분히 반영하지 못한다고 본다. 그래서 engineering team의 실제 session에서 CursorBench를 구성했고, Composer 2는 여기서 61.3을 기록하며 Composer 1.5 대비 37% 개선을 보였다고 한다. 같은 문서에는 SWE-bench Multilingual 73.7, Terminal-Bench 61.7도 제시된다.
왜 의미가 큰가
핵심은 benchmark 숫자 자체보다, coding agent의 승부처가 어디인지에 대한 주장이다. Cursor는 더 많은 pretraining token만이 아니라 production-like environment에서 얻는 촘촘한 feedback이 결정적이라고 말하고 있다. infrastructure 섹션은 multi-region asynchronous RL pipeline, Blackwell GPU용 low-precision kernel, 그리고 수십만 개의 sandboxed coding environment를 돌리는 내부 플랫폼 Anyrun을 설명한다.
만약 Cursor가 말한 것처럼 update cycle을 시간 단위로 압축할 수 있다면, 경쟁은 누가 더 큰 checkpoint를 내놓느냐에서 누가 실제 workflow를 더 빨리 그리고 안전하게 학습하느냐로 이동한다. 이는 Cursor 한 회사의 문제가 아니라, 앞으로 coding model이 tool use, environment fidelity, real-world evaluation을 중심으로 지속적으로 튜닝되는 방향으로 간다는 신호에 가깝다.
Related Articles
Cursor가 Composer 2 technical report를 공개하며 code-dominated continued pretraining, 대규모 reinforcement learning, 그리고 CursorBench 중심 평가 체계를 설명했다. 보고서는 agentic software engineering 모델의 학습 환경과 benchmark 수치를 비교적 자세히 공개한 사례다.
Cursor가 Composer 2를 어떻게 학습했는지 설명하는 기술 보고서를 공개했다. 회사는 continued pretraining과 대규모 reinforcement learning을 결합해 CursorBench 61.3, Terminal-Bench 61.7, SWE-bench Multilingual 73.7을 기록했다고 밝혔다.
r/LocalLLaMA의 벤치마크 글은 RTX A6000 48GB, llama.cpp CUDA, 32k context 조건에서 Qwen3.5 27B가 약 19.7 tok/s를 기록하며 크기 대비 성능 균형이 좋다고 평가했다.
Comments (0)
No comments yet. Be the first to comment!