Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

CursorがXで示したこと

Cursorは2026年3月26日、Composer 2に関する追加研究を共有し、real-time reinforcement learningによって改善されたcheckpointを5時間ごとにshipできると主張した。これは強いメッセージだ。多くのmodel announcementがbenchmark snapshotや定期的な大型releaseを前面に出すのに対し、Cursorはdeployment cadenceに近い学習ループそのものを競争力として語っているからだ。

技術レポートが補う内容

3月27日に公開された technical report によれば、Composer 2は二段階で学習される。まずKimi K2.5の上でcode-heavyなdata mixによるcontinued pretrainingを行い、その後、実際のCursor productと同じtoolsとharnessを使うrealistic sessionの中で大規模RLを実施する。Cursorは、pretraining lossの低下がdownstream agent performanceの改善につながり、RLはaverageだけでなくbest-of-Kの結果も押し上げると説明している。

このレポートはCursorBenchを作った理由も示している。Cursorは公開coding benchmarkが課題を過度に明確化し、実際に開発者がcoding agentへ渡す曖昧でmulti-fileな仕事を十分に表現していないと考える。そこで実際のengineering sessionからCursorBenchを構築し、Composer 2はそこで61.3を記録、Composer 1.5比で37%改善したとする。同じ文書にはSWE-bench Multilingualで73.7、Terminal-Benchで61.7も掲載されている。

なぜ重要なのか

重要なのはbenchmarkの数字そのものより、coding agentの勝ち筋に関する主張だ。Cursorは、より多くのpretraining tokenだけでなく、productionに近いenvironmentから得る密なfeedbackこそが決定的だと言っている。infrastructure節では、multi-regionのasynchronous RL pipeline、Blackwell GPU向けのlow-precision kernel、そして何十万ものsandboxed coding environmentを動かす内部基盤Anyrunが説明されている。

もしCursorが言うように更新サイクルを時間単位まで圧縮できるなら、競争の中心は「誰が最大のcheckpointを出すか」から「誰が実際のworkflowから最も速く、しかも安全に学べるか」へ移る。これはCursor固有の話にとどまらず、今後のcoding modelがtool use、environment fidelity、live developer work由来のevaluationを軸に継続的に調整されていく未来を示している。

Sources: Cursor on X, Cursor technical report.

Cursor、継続事前学習から実運用RLまで Composer 2 の学習スタックを公開

CursorがXで示したこと

技術レポートが補う内容

なぜ重要なのか

Related Articles

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

Ornith-1.0、agentic coding向けopen modelの実用ラインを試す

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回

Related Articles

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
LLM Apr 26, 2026 1 min read

Ornith-1.0、agentic coding向けopen modelの実用ラインを試す
LLM Hacker News Jun 30, 2026 1 min read

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回
LLM X/Twitter Jul 10, 2026 1 min read