Cursor、Composer 2 technical report を公開し coding agent の学習手法と benchmark を詳述

概要

Cursorは2026年3月24日にXで、agentic software engineering 向けモデル Composer 2 の technical report 公開を告知した。直後の follow-up reply ではPDF本体も共有され、今回の投稿は単なるローンチ告知ではなく、production coding model がどのように学習され評価されるかを比較的詳しく示す一次資料になっている。

レポートによれば、Composer 2 は long-horizon coding task に向けて最適化された domain-specialized model であり、実際にデプロイされる Cursor agent と同じ harness と tool environment の上で訓練されている。Cursorは、狭い benchmark prompt と実ユーザーのセッションの間にある train-test mismatch を減らすことが目的だったと説明する。

学習レシピと構成

Cursorは Composer 2 を二段階で学習したと述べる。第一段階は code-dominated data mix 上での continued pretraining で、coding knowledge と latent ability を高める工程だ。レポートでは基盤モデルとして Kimi K2.5 を採用し、1.04T parameter / 32B active parameter の Mixture-of-Experts 構成を使ったと記している。その後、32k token 学習、256k token への long-context extension、targeted coding task 向けの短い SFT を行った。

第二段階は、実際の Cursor セッションを模した環境での large-scale reinforcement learning だ。対象タスクには debugging、new feature、refactor、documentation、testing、code review、DevOps、migration などが含まれる。さらに、長い作業のための self-summarization、高速 serving のための multi-token prediction、速度と tool use、code quality のバランスを取る reward shaping も説明されている。

公開された benchmark

評価結果として Cursor は、CursorBench 61.3%、SWE-bench Multilingual 73.7%、Terminal-Bench 61.7% を報告している。会社はこれを、state-of-the-art model API pricing より低い serving cost で frontier-level coding performance を実現した結果だと位置づける。より興味深いのは単なる数値ではなく評価方法だ。CursorBench は内部エンジニアリングセッションから作られており、公開 benchmark より大きなコード変更と、より短く曖昧なプロンプトを含むと説明されている。

そのため、このレポートは Cursor だけの話では終わらない。coding agent が autocomplete から long-horizon autonomous workflow へ移る中で、training environment、reward design、benchmark construction をどこまで一次資料で透明に示せるかが戦略的に重要になっている。主要資料: Composer 2 Technical Report。

Cursor、Composer 2 technical report を公開し coding agent の学習手法と benchmark を詳述

概要

学習レシピと構成

公開された benchmark

Related Articles

Cursor、real-time RLでComposer checkpointを5時間ごとに改善投入できると説明

LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす

Comments (0)

Leave a Comment

Related Articles

Cursor、real-time RLでComposer checkpointを5時間ごとに改善投入できると説明

LocalLLaMAベンチマークが示したRTX 5090、AI395、dual R9700の勝ち筋

Hacker Newsが注目した ATLAS、local coding agent の採算を揺らす