Cursor、Composer 2 technical report を公開し coding agent の学習手法と benchmark を詳述

Original: Cursor publishes the Composer 2 technical report detailing continued pretraining and large-scale RL for coding agents View original →

Read in other languages: 한국어English
LLM Mar 30, 2026 By Insights AI (Twitter) 1 min read Source
Cursor、Composer 2 technical report を公開し coding agent の学習手法と benchmark を詳述

概要

Cursorは2026年3月24日にXで、agentic software engineering 向けモデル Composer 2 の technical report 公開を告知した。直後の follow-up reply ではPDF本体も共有され、今回の投稿は単なるローンチ告知ではなく、production coding model がどのように学習され評価されるかを比較的詳しく示す一次資料になっている。

レポートによれば、Composer 2 は long-horizon coding task に向けて最適化された domain-specialized model であり、実際にデプロイされる Cursor agent と同じ harness と tool environment の上で訓練されている。Cursorは、狭い benchmark prompt と実ユーザーのセッションの間にある train-test mismatch を減らすことが目的だったと説明する。

学習レシピと構成

Cursorは Composer 2 を二段階で学習したと述べる。第一段階は code-dominated data mix 上での continued pretraining で、coding knowledge と latent ability を高める工程だ。レポートでは基盤モデルとして Kimi K2.5 を採用し、1.04T parameter / 32B active parameter の Mixture-of-Experts 構成を使ったと記している。その後、32k token 学習、256k token への long-context extension、targeted coding task 向けの短い SFT を行った。

第二段階は、実際の Cursor セッションを模した環境での large-scale reinforcement learning だ。対象タスクには debugging、new feature、refactor、documentation、testing、code review、DevOps、migration などが含まれる。さらに、長い作業のための self-summarization、高速 serving のための multi-token prediction、速度と tool use、code quality のバランスを取る reward shaping も説明されている。

公開された benchmark

評価結果として Cursor は、CursorBench 61.3%、SWE-bench Multilingual 73.7%、Terminal-Bench 61.7% を報告している。会社はこれを、state-of-the-art model API pricing より低い serving cost で frontier-level coding performance を実現した結果だと位置づける。より興味深いのは単なる数値ではなく評価方法だ。CursorBench は内部エンジニアリングセッションから作られており、公開 benchmark より大きなコード変更と、より短く曖昧なプロンプトを含むと説明されている。

そのため、このレポートは Cursor だけの話では終わらない。coding agent が autocomplete から long-horizon autonomous workflow へ移る中で、training environment、reward design、benchmark construction をどこまで一次資料で透明に示せるかが戦略的に重要になっている。主要資料: Composer 2 Technical Report

Share: Long

Related Articles

LLM sources.twitter 1d ago 1 min read

Cursorは2026年3月26日、real-time reinforcement learningによって改善版Composer checkpointを最短5時間ごとに投入できると述べた。研究記事によれば、このループは実ユーザー対話から得た数十億tokenを学習信号にし、配備前にCursorBenchを含むevalを通し、edit persistence・dissatisfied follow-up・latencyの改善も確認している。

LLM Hacker News 2d ago 1 min read

Hacker Newsで拡散した ATLAS は、consumer GPU ベースの local coding agent のコスト構造に新しい論点を持ち込んだ。ただし README の 74.6% LiveCodeBench は best-of-3 plus repair と異なる task 数を前提とした値で、Claude 4.5 Sonnet との比較は非統制比較として読む必要がある。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.