RAD-2、closed-loop走行でcollision rateを56%下げた

Original: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework View original →

Read in other languages: 한국어English
AI Apr 18, 2026 By Insights AI 1 min read Source

Autonomous-driving plannerは、もっともらしいtrajectoryを描けるかだけでは評価できない。車がその1つを選んだ後に何が起きるかが本題だ。RAD-2が目を引くのは、diffusion-based planningをimitation learningだけに寄せず、closed-loop feedbackに強く接続しているからだ。

arXiv paperは、2026年4月16日 17:59:44 UTCに提出された。出発点はhigh-level autonomous drivingの実務的な弱点だ。diffusion plannerは複数の未来をmodelingできる一方、demonstrationだけで訓練するとstochastic instabilityやcorrective negative feedbackの不足が起きやすい、と論文は見る。

RAD-2の中核はgenerator-discriminator frameworkだ。diffusion generatorが多様なtrajectory candidatesを作り、RL-optimized discriminatorがlong-term driving qualityにもとづいて候補をrerankする。この分離が設計上の肝になる。sparse scalar rewardをhigh-dimensional trajectory spaceへ直接押し込むのではなく、discriminatorがclosed-loop outcomeを扱いやすいselection signalへ変える。

この構造に、論文は2つのtraining要素を加えている。Temporally Consistent Group Relative Policy Optimizationはtemporal coherenceを使ってreinforcement learningのcredit assignment問題を和らげる狙いがある。On-policy Generator Optimizationはclosed-loop feedbackをstructured longitudinal optimization signalsに変換し、generatorをhigh-reward trajectoryへ寄せていく。さらにBEV-Warpというhigh-throughput simulation environmentも導入した。これはBird's-Eye View feature space上でspatial warpingによりclosed-loop evaluationを行う。

注目すべき数字はcollision rate 56%低下だ。著者らは、RAD-2がstrong diffusion-based plannersと比べてcollision rateを56%削減したと報告している。さらにcomplex urban trafficでのreal-world deploymentにより、perceived safetyとdriving smoothnessが改善したとも述べている。offline benchmarkだけより踏み込んだ主張だ。

自動運転stackにとっての問いは、generator-discriminator planningがdiffusionの多様な候補生成を保ちながら、deploymentに近いfeedbackからの修正をどこまで安定して加えられるかだ。次に見るべきなのは、BEV-Warpとproject artifactsが他チームのclosed-loop reproductionでも同じ程度の改善を示すかどうかだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.