Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化
Original: Cursor and NVIDIA report 38% geomean speedup on CUDA kernels View original →
Cursorの4月14日のX投稿は、coding agentの能力を測りやすいsystems benchmarkに持ち込んだ点で目立つ。同社はNVIDIAと協力し、multi-agent systemをCUDA kernel最適化に適用した結果、"38% geomean speedup across 235 problems"を得たと書いた。作成時刻は2026年4月14日19:33:22 UTCで、今回のfreshness条件を満たしている。
source tweet自体は外部URLではなくmediaを添付しているが、Cursorは同じ結果を公式research blogで詳しく説明している。記事によると、multi-agent harnessはNVIDIA Blackwell 200 GPU向けに235個のCUDA kernel問題を3週間で処理した。235問中149問でbaselineを上回り、geometric mean ratioは1.38xだった。さらに19%の最適化では2x超の改善が出たという。
Cursorのアカウントは通常、editor機能、coding agent、developer workflowの更新を投稿する。しかし今回の話は、単なる機能紹介より研究寄りだ。CUDA kernelはAI trainingとinferenceのコスト、latency、GPU utilizationを左右する低レイヤーのソフトウェアである。人間のkernel engineerが長期間かけて調整する領域に、agentがbenchmark loopを回しながら並列探索で入れるかを試した点が重要だ。
次に見るべきはproductionへの距離である。Cursorの記事は、median SOL scoreが0.56にとどまり、theoretical hardware limitとの間にまだ差があるとも書いている。より多くのGPU、より長い実行時間、別のmodel architectureでも同じ方法が効くのかが焦点になる。source tweetはこちらで確認できる。
Related Articles
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
r/MachineLearningの投稿とリンク先のbenchmark記事は、RTX 5090のbatched FP32 SGEMMが非効率なcuBLAS経路に入り、GPU計算資源を大きく余らせていると主張する。
Comments (0)
No comments yet. Be the first to comment!