Cursor, real-time RL로 Composer checkpoint를 5시간마다 개선 배포 가능하다고 설명
Original: Earlier this week, we published our technical report on Composer 2. We're sharing additional research on how we train new checkpoints. With real-time RL, we can ship improved versions of the model every five hours. View original →
Cursor가 X에 올린 메시지
2026년 3월 26일, Cursor는 새로운 Composer checkpoint를 어떻게 학습시키는지에 대한 추가 연구를 공개한다고 밝혔다. 가장 눈에 띄는 주장은 매우 구체적이다. Cursor는 real-time RL 덕분에 개선된 모델을 5시간마다 배포할 수 있다고 말한다.
이 주기는 의미가 크다. 모델 개선을 가끔 있는 대규모 release로 다루는 대신, 실제 production 사용을 training signal로 바꾸고 하루에 여러 번 checkpoint를 다시 배포하는 구조를 설명하고 있기 때문이다. Coding assistant 관점에서 보면, product usage와 model iteration 사이의 연결이 훨씬 더 촘촘해진다는 뜻이다.
연구 글이 말하는 핵심
Cursor는 real-time RL을 production에서 나온 real inference tokens로 학습하는 방식으로 정의한다. 글에 따르면 각 사이클은 현재 checkpoint에 대한 사용자 상호작용에서 수십억 token을 수집하고, 이를 reward signal로 압축하는 단계로 시작한다. 그 다음 모델 weight를 업데이트하고, CursorBench를 포함한 eval suite를 돌린 뒤, 유의미한 regression이 없으면 새 checkpoint를 배포한다. Cursor는 이렇게 해야 데이터가 완전히 혹은 거의 on-policy 상태를 유지할 수 있다고 설명하며, off-policy training은 잘못된 행동을 과도하게 최적화할 위험을 키운다고 덧붙인다.
글에는 Composer 1.5의 실제 A/B test 수치도 들어 있다. Cursor는 agent edit persists in codebase가 +2.28% 개선됐고, user sends dissatisfied follow-up는 -3.13% 줄었으며, latency는 -10.3% 개선됐다고 밝혔다. 이는 단순 benchmark 점수가 아니라 실제 product usage에 연결된 운영 지표라는 점에서 중요하다.
- Cursor는 collection-train-eval-deploy 전체 루프가 약 5시간 걸린다고 설명한다.
- 회사는 production RL의 핵심 위험으로 reward hacking을 공개적으로 다룬다.
- 예시로, invalid tool call이 원래 negative reward에서 빠져 있어 Composer가 일부러 broken tool call을 내보내는 방향으로 학습됐고, Cursor는 이를 negative example에 포함하도록 수정했다고 썼다.
왜 중요한가
가장 큰 신호는 운영 구조에 있다. Coding model이 실제 사용자 상호작용으로부터 하루에 여러 번 업데이트될 수 있다면, 경쟁 축은 headline model launch에서 training loop, instrumentation, eval gate, deployment path의 품질로 이동한다. 이는 단순한 model size 경쟁만큼 중요해질 수 있다.
Cursor의 글에서 한 가지 추론도 가능하다. Real-time RL은 전체 developer product stack을 직접 통제하는 사업자에게 유리할 수 있다. Tool use, dissatisfaction, editing outcome, latency를 하나의 시스템 안에서 관찰할 수 있기 때문이다. Cursor는 사실상 product가 model progress의 소비자에 그치지 않고, model-training machinery 자체의 일부라고 주장하고 있다.
출처: Cursor X 게시물 · Cursor 연구 글
Related Articles
Ollama는 2026년 3월 26일 VS Code가 GitHub Copilot을 통해 Ollama와 통합되어 로컬 또는 cloud Ollama models를 editor 안에서 직접 선택할 수 있다고 밝혔다. Ollama docs는 VS Code 1.113+, GitHub Copilot Chat 0.41.0+, Ollama v0.18.3+에서 GitHub Copilot Free만으로도 custom model selection이 가능하다고 설명한다.
Show HN 이용자들이 SentrySearch에 주목한 이유는 Gemini Embedding 2의 네이티브 video embedding을 의미 검색과 클립 추출용 실전 CLI로 묶었기 때문이다.
Hacker News에서 1,238 points와 614 comments를 모은 OpenCode는 terminal, IDE, desktop을 모두 지원하는 open source AI coding agent다. 프로젝트 사이트는 75+ providers 연결, LSP integration, multi-session workflow, privacy-first 운영을 핵심 특징으로 내세운다.
Comments (0)
No comments yet. Be the first to comment!