Cursor、Composer 2 technical report を公開し coding agent の学習手法と benchmark を詳述
Original: Cursor publishes the Composer 2 technical report detailing continued pretraining and large-scale RL for coding agents View original →
概要
Cursorは2026年3月24日にXで、agentic software engineering 向けモデル Composer 2 の technical report 公開を告知した。直後の follow-up reply ではPDF本体も共有され、今回の投稿は単なるローンチ告知ではなく、production coding model がどのように学習され評価されるかを比較的詳しく示す一次資料になっている。
レポートによれば、Composer 2 は long-horizon coding task に向けて最適化された domain-specialized model であり、実際にデプロイされる Cursor agent と同じ harness と tool environment の上で訓練されている。Cursorは、狭い benchmark prompt と実ユーザーのセッションの間にある train-test mismatch を減らすことが目的だったと説明する。
学習レシピと構成
Cursorは Composer 2 を二段階で学習したと述べる。第一段階は code-dominated data mix 上での continued pretraining で、coding knowledge と latent ability を高める工程だ。レポートでは基盤モデルとして Kimi K2.5 を採用し、1.04T parameter / 32B active parameter の Mixture-of-Experts 構成を使ったと記している。その後、32k token 学習、256k token への long-context extension、targeted coding task 向けの短い SFT を行った。
第二段階は、実際の Cursor セッションを模した環境での large-scale reinforcement learning だ。対象タスクには debugging、new feature、refactor、documentation、testing、code review、DevOps、migration などが含まれる。さらに、長い作業のための self-summarization、高速 serving のための multi-token prediction、速度と tool use、code quality のバランスを取る reward shaping も説明されている。
公開された benchmark
評価結果として Cursor は、CursorBench 61.3%、SWE-bench Multilingual 73.7%、Terminal-Bench 61.7% を報告している。会社はこれを、state-of-the-art model API pricing より低い serving cost で frontier-level coding performance を実現した結果だと位置づける。より興味深いのは単なる数値ではなく評価方法だ。CursorBench は内部エンジニアリングセッションから作られており、公開 benchmark より大きなコード変更と、より短く曖昧なプロンプトを含むと説明されている。
そのため、このレポートは Cursor だけの話では終わらない。coding agent が autocomplete から long-horizon autonomous workflow へ移る中で、training environment、reward design、benchmark construction をどこまで一次資料で透明に示せるかが戦略的に重要になっている。主要資料: Composer 2 Technical Report。
Related Articles
Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer checkpointを最短5時間ごとに投入できると述べた。研究記事によれば、このループは実ユーザー対話から得た数十億tokenを学習信号にし、配備前にCursorBenchを含むevalを通し、edit persistence・dissatisfied follow-up・latencyの改善も確認している。
r/LocalLLaMAのllama.cpp比較投稿は55 upvotes、81 commentsを集めた。RTX 5090、DGX Spark、AMD AI395、singleとdual R9700を同一条件で比較し、local inference hardwareの現実的なtrade-offを可視化している。
Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。
Comments (0)
No comments yet. Be the first to comment!