CUDA Agent論文、Agentic RLでKernelBench改善を主張し話題化
Original: A Chinese AI lab just built an AI that writes CUDA code better than torch.compile. 40% better than Claude Opus 4.5. on the hardest benchmark. View original →
コミュニティで注目された内容
r/singularityの投稿(クロール時点で372ポイント、46コメント)は、CUDA Agentのプロジェクトページを紹介し、agentic RLによるCUDA kernel最適化の有効性を主張した。焦点は一般的なコード生成ではなく、深層学習の実行速度に直結する低レイヤ最適化である。
この点が重要で、モデル能力の見せ方が「コードを書ける」から「システム性能を押し上げられる」に移りつつあることを示している。
手法と公開情報
ページ記載では、著者はByteDance SeedとTsinghua AIRの連携チーム。構成要素は、スケーラブルな合成データ生成、検証とprofilingを備えたCUDA実行環境、長文脈学習を安定化するRL訓練設計の3点だ。学習データCUDA-Agent-Ops-6Kは6,000サンプル規模で、汚染対策を含むと説明される。
Latest Newsには2026-02-27付でGitHubワークフローとHugging Faceデータセット公開が記載され、再現検証の土台を示している。
公表された指標
プロジェクトページのOverall指標は、pass rate 98.8%、faster-than-torch.compile 96.8%、compile比 geomean speed-up 2.11x。Level-3ではpass rate 94%、faster rate 90%、speed-up 1.52x。abstractではLevel-1/2/3で100%、100%、92% faster rateを報告している。
さらに、最難関設定でproprietary baselinesより大きな差があると主張する。
実務的な読み方
示唆は明確で、agentic RLが低レイヤ最適化に実用的に入ってきた可能性がある。もし第三者検証で同等結果が再現されれば、ML基盤のkernelチューニング工程は大きく自動化されうる。
ただし現段階の数値はチーム自己報告であり、独立再現が前提となる。したがって即時の確定判断ではなく、公開コードとデータを用いた追試結果を継続監視すべき高シグナル案件と位置づけるのが妥当だ。
Related Articles
オープンモデル競争は順位表だけでなく、長時間エージェントの運用コストへ移っている。NVIDIAはNemotron 3 Ultraについて、5倍高速な推論と最大30%低い複雑タスク費用を示した。
HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。