RAD-2、closed-loop走行でcollision rateを56%下げた
Original: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework View original →
Autonomous-driving plannerは、もっともらしいtrajectoryを描けるかだけでは評価できない。車がその1つを選んだ後に何が起きるかが本題だ。RAD-2が目を引くのは、diffusion-based planningをimitation learningだけに寄せず、closed-loop feedbackに強く接続しているからだ。
arXiv paperは、2026年4月16日 17:59:44 UTCに提出された。出発点はhigh-level autonomous drivingの実務的な弱点だ。diffusion plannerは複数の未来をmodelingできる一方、demonstrationだけで訓練するとstochastic instabilityやcorrective negative feedbackの不足が起きやすい、と論文は見る。
RAD-2の中核はgenerator-discriminator frameworkだ。diffusion generatorが多様なtrajectory candidatesを作り、RL-optimized discriminatorがlong-term driving qualityにもとづいて候補をrerankする。この分離が設計上の肝になる。sparse scalar rewardをhigh-dimensional trajectory spaceへ直接押し込むのではなく、discriminatorがclosed-loop outcomeを扱いやすいselection signalへ変える。
この構造に、論文は2つのtraining要素を加えている。Temporally Consistent Group Relative Policy Optimizationはtemporal coherenceを使ってreinforcement learningのcredit assignment問題を和らげる狙いがある。On-policy Generator Optimizationはclosed-loop feedbackをstructured longitudinal optimization signalsに変換し、generatorをhigh-reward trajectoryへ寄せていく。さらにBEV-Warpというhigh-throughput simulation environmentも導入した。これはBird's-Eye View feature space上でspatial warpingによりclosed-loop evaluationを行う。
注目すべき数字はcollision rate 56%低下だ。著者らは、RAD-2がstrong diffusion-based plannersと比べてcollision rateを56%削減したと報告している。さらにcomplex urban trafficでのreal-world deploymentにより、perceived safetyとdriving smoothnessが改善したとも述べている。offline benchmarkだけより踏み込んだ主張だ。
自動運転stackにとっての問いは、generator-discriminator planningがdiffusionの多様な候補生成を保ちながら、deploymentに近いfeedbackからの修正をどこまで安定して加えられるかだ。次に見るべきなのは、BEV-Warpとproject artifactsが他チームのclosed-loop reproductionでも同じ程度の改善を示すかどうかだ。
Related Articles
r/MachineLearning で共有された MIT 2026 course は、flow matching と diffusion models を lecture videos、数理ノート、coding exercises と一緒に提供する。新しい版では latent spaces、diffusion transformers、discrete diffusion language models まで扱う。
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
スペインの開発者がHacker Newsで、GitLab runnerのDocker pull障害を追跡した結果、LaLiga関連のCloudflare IP blockが原因の可能性を示した。
Comments (0)
No comments yet. Be the first to comment!