CUDA Agent論文、Agentic RLでKernelBench改善を主張し話題化
Original: A Chinese AI lab just built an AI that writes CUDA code better than torch.compile. 40% better than Claude Opus 4.5. on the hardest benchmark. View original →
コミュニティで注目された内容
r/singularityの投稿(クロール時点で372ポイント、46コメント)は、CUDA Agentのプロジェクトページを紹介し、agentic RLによるCUDA kernel最適化の有効性を主張した。焦点は一般的なコード生成ではなく、深層学習の実行速度に直結する低レイヤ最適化である。
この点が重要で、モデル能力の見せ方が「コードを書ける」から「システム性能を押し上げられる」に移りつつあることを示している。
手法と公開情報
ページ記載では、著者はByteDance SeedとTsinghua AIRの連携チーム。構成要素は、スケーラブルな合成データ生成、検証とprofilingを備えたCUDA実行環境、長文脈学習を安定化するRL訓練設計の3点だ。学習データCUDA-Agent-Ops-6Kは6,000サンプル規模で、汚染対策を含むと説明される。
Latest Newsには2026-02-27付でGitHubワークフローとHugging Faceデータセット公開が記載され、再現検証の土台を示している。
公表された指標
プロジェクトページのOverall指標は、pass rate 98.8%、faster-than-torch.compile 96.8%、compile比 geomean speed-up 2.11x。Level-3ではpass rate 94%、faster rate 90%、speed-up 1.52x。abstractではLevel-1/2/3で100%、100%、92% faster rateを報告している。
さらに、最難関設定でproprietary baselinesより大きな差があると主張する。
実務的な読み方
示唆は明確で、agentic RLが低レイヤ最適化に実用的に入ってきた可能性がある。もし第三者検証で同等結果が再現されれば、ML基盤のkernelチューニング工程は大きく自動化されうる。
ただし現段階の数値はチーム自己報告であり、独立再現が前提となる。したがって即時の確定判断ではなく、公開コードとデータを用いた追試結果を継続監視すべき高シグナル案件と位置づけるのが妥当だ。
Related Articles
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
AnthropicはClaudeの選挙安全策を数値で公開した。Opus 4.7とSonnet 4.6は600件の選挙ポリシー試験で100%と99.8%の適切応答を示し、米中間選挙関連の質問では92%と95%の割合でウェブ検索を起動した。
Comments (0)
No comments yet. Be the first to comment!