Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化

Cursorの4月14日のX投稿は、coding agentの能力を測りやすいsystems benchmarkに持ち込んだ点で目立つ。同社はNVIDIAと協力し、multi-agent systemをCUDA kernel最適化に適用した結果、"38% geomean speedup across 235 problems"を得たと書いた。作成時刻は2026年4月14日19:33:22 UTCで、今回のfreshness条件を満たしている。

source tweet自体は外部URLではなくmediaを添付しているが、Cursorは同じ結果を公式research blogで詳しく説明している。記事によると、multi-agent harnessはNVIDIA Blackwell 200 GPU向けに235個のCUDA kernel問題を3週間で処理した。235問中149問でbaselineを上回り、geometric mean ratioは1.38xだった。さらに19%の最適化では2x超の改善が出たという。

Cursorのアカウントは通常、editor機能、coding agent、developer workflowの更新を投稿する。しかし今回の話は、単なる機能紹介より研究寄りだ。CUDA kernelはAI trainingとinferenceのコスト、latency、GPU utilizationを左右する低レイヤーのソフトウェアである。人間のkernel engineerが長期間かけて調整する領域に、agentがbenchmark loopを回しながら並列探索で入れるかを試した点が重要だ。

次に見るべきはproductionへの距離である。Cursorの記事は、median SOL scoreが0.56にとどまり、theoretical hardware limitとの間にまだ差があるとも書いている。より多くのGPU、より長い実行時間、別のmodel architectureでも同じ方法が効くのかが焦点になる。source tweetはこちらで確認できる。