Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開
Original: Earlier this week, we published our technical report on Composer 2. We're sharing additional research on how we train new checkpoints. With real-time RL, we can ship improved versions of the model every five hours. View original →
CursorがXで示したこと
Cursorは2026年3月26日、Composer 2に関する追加研究を共有し、real-time reinforcement learningによって改善されたcheckpointを5時間ごとにshipできると主張した。これは強いメッセージだ。多くのmodel announcementがbenchmark snapshotや定期的な大型releaseを前面に出すのに対し、Cursorはdeployment cadenceに近い学習ループそのものを競争力として語っているからだ。
技術レポートが補う内容
3月27日に公開された technical report によれば、Composer 2は二段階で学習される。まずKimi K2.5の上でcode-heavyなdata mixによるcontinued pretrainingを行い、その後、実際のCursor productと同じtoolsとharnessを使うrealistic sessionの中で大規模RLを実施する。Cursorは、pretraining lossの低下がdownstream agent performanceの改善につながり、RLはaverageだけでなくbest-of-Kの結果も押し上げると説明している。
このレポートはCursorBenchを作った理由も示している。Cursorは公開coding benchmarkが課題を過度に明確化し、実際に開発者がcoding agentへ渡す曖昧でmulti-fileな仕事を十分に表現していないと考える。そこで実際のengineering sessionからCursorBenchを構築し、Composer 2はそこで61.3を記録、Composer 1.5比で37%改善したとする。同じ文書にはSWE-bench Multilingualで73.7、Terminal-Benchで61.7も掲載されている。
なぜ重要なのか
重要なのはbenchmarkの数字そのものより、coding agentの勝ち筋に関する主張だ。Cursorは、より多くのpretraining tokenだけでなく、productionに近いenvironmentから得る密なfeedbackこそが決定的だと言っている。infrastructure節では、multi-regionのasynchronous RL pipeline、Blackwell GPU向けのlow-precision kernel、そして何十万ものsandboxed coding environmentを動かす内部基盤Anyrunが説明されている。
もしCursorが言うように更新サイクルを時間単位まで圧縮できるなら、競争の中心は「誰が最大のcheckpointを出すか」から「誰が実際のworkflowから最も速く、しかも安全に学べるか」へ移る。これはCursor固有の話にとどまらず、今後のcoding modelがtool use、environment fidelity、live developer work由来のevaluationを軸に継続的に調整されていく未来を示している。
Sources: Cursor on X, Cursor technical report.
Related Articles
Cursorが Composer 2 technical report を公開し、code-focused な continued pretraining、大規模 reinforcement learning、CursorBench を軸にした評価戦略を説明した。production coding agent の学習と評価をここまで一次資料で示す例はまだ多くない。
CursorがComposer 2の学習方法を説明する技術報告を公開した。同社はcontinued pretrainingと大規模reinforcement learningを組み合わせ、CursorBench 61.3、Terminal-Bench 61.7、SWE-bench Multilingual 73.7を記録したとしている。
Sebastian Raschkaが2026年4月4日に公開した記事は、coding agentの実力差はbase modelだけでなくharness設計から生まれると整理する。記事はlive repo context、prompt/cache reuse、structured tools、context reduction、session memory、bounded subagentsの6要素を提示し、Hacker NewsではCodexやClaude Codeのような製品を理解するための実務的な枠組みとして受け止められた。
Comments (0)
No comments yet. Be the first to comment!