RAD-2, closed-loop 주행 test에서 collision rate 56% 낮췄다
Original: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework View original →
Autonomous-driving planner는 그럴듯한 trajectory를 그리는지만으로 평가되지 않는다. 차량이 실제로 하나를 선택한 뒤 무슨 일이 벌어지는지가 핵심이다. RAD-2가 눈에 띄는 이유는 diffusion-based planning을 imitation learning에만 맡기지 않고 closed-loop feedback 쪽으로 더 밀어 넣었기 때문이다.
arXiv 논문은 2026년 4월 16일 17:59:44 UTC에 제출됐다. 출발점은 high-level autonomous driving의 실용적인 약점이다. diffusion planner는 여러 가능한 미래를 모델링하는 데 강하지만, 순수 demonstration 기반 training에서는 stochastic instability와 corrective negative feedback 부족이 생길 수 있다고 논문은 지적한다.
RAD-2의 답은 generator-discriminator framework다. diffusion generator가 다양한 trajectory candidates를 만들고, RL-optimized discriminator가 long-term driving quality에 따라 후보를 다시 순위화한다. 핵심은 분리다. sparse scalar reward를 high-dimensional trajectory space 전체에 직접 밀어 넣기보다, discriminator가 closed-loop outcome을 더 다루기 쉬운 selection signal로 바꾼다.
논문은 이 구조 주변에 두 가지 training 요소를 붙였다. Temporally Consistent Group Relative Policy Optimization은 temporal coherence를 활용해 reinforcement learning의 credit assignment 문제를 줄이려는 장치다. On-policy Generator Optimization은 closed-loop feedback을 structured longitudinal optimization signal로 바꿔 generator가 high-reward trajectory 쪽으로 이동하도록 만든다. 여기에 BEV-Warp라는 high-throughput simulation environment도 제시했다. 이 환경은 Bird's-Eye View feature space에서 spatial warping으로 closed-loop evaluation을 수행한다.
가장 큰 숫자는 collision rate 56% 감소다. 저자들은 RAD-2가 strong diffusion-based planners와 비교해 collision rate를 56% 낮췄다고 보고했다. 또 complex urban traffic에서 real-world deployment를 통해 perceived safety와 driving smoothness가 좋아졌다고 썼다. offline benchmark만 제시한 연구보다 더 강한 주장이다.
자율주행 stack에서 볼 지점은 분명하다. generator-discriminator planning이 diffusion의 diverse trajectory 장점을 유지하면서 deployment-like feedback에서 오는 correction을 얼마나 안정적으로 붙일 수 있느냐다. 다음 검증 포인트는 BEV-Warp와 project artifacts가 다른 팀의 closed-loop reproduction에서도 같은 폭의 개선을 보이는지다.
Related Articles
Tesla가 FSD Supervised로 캐나다 횡단 주행을 수행했다고 밝혔다. 밴쿠버에서 핼리팩스까지 3,760마일, 6,051km를 “zero human input”으로 달렸다는 수치가 핵심이다.
MachineLearning 댓글은 “AI detector가 보조도구인지 결정권자인지”를 놓고 강하게 갈렸다.
HN 댓글은 solve rate보다 guardrail, 작업 방식, 보안 연구용 계정 조건이 결과를 얼마나 바꿨는지에 주목했다.