RAD-2, closed-loop 주행 test에서 collision rate 56% 낮췄다
Original: RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework View original →
Autonomous-driving planner는 그럴듯한 trajectory를 그리는지만으로 평가되지 않는다. 차량이 실제로 하나를 선택한 뒤 무슨 일이 벌어지는지가 핵심이다. RAD-2가 눈에 띄는 이유는 diffusion-based planning을 imitation learning에만 맡기지 않고 closed-loop feedback 쪽으로 더 밀어 넣었기 때문이다.
arXiv 논문은 2026년 4월 16일 17:59:44 UTC에 제출됐다. 출발점은 high-level autonomous driving의 실용적인 약점이다. diffusion planner는 여러 가능한 미래를 모델링하는 데 강하지만, 순수 demonstration 기반 training에서는 stochastic instability와 corrective negative feedback 부족이 생길 수 있다고 논문은 지적한다.
RAD-2의 답은 generator-discriminator framework다. diffusion generator가 다양한 trajectory candidates를 만들고, RL-optimized discriminator가 long-term driving quality에 따라 후보를 다시 순위화한다. 핵심은 분리다. sparse scalar reward를 high-dimensional trajectory space 전체에 직접 밀어 넣기보다, discriminator가 closed-loop outcome을 더 다루기 쉬운 selection signal로 바꾼다.
논문은 이 구조 주변에 두 가지 training 요소를 붙였다. Temporally Consistent Group Relative Policy Optimization은 temporal coherence를 활용해 reinforcement learning의 credit assignment 문제를 줄이려는 장치다. On-policy Generator Optimization은 closed-loop feedback을 structured longitudinal optimization signal로 바꿔 generator가 high-reward trajectory 쪽으로 이동하도록 만든다. 여기에 BEV-Warp라는 high-throughput simulation environment도 제시했다. 이 환경은 Bird's-Eye View feature space에서 spatial warping으로 closed-loop evaluation을 수행한다.
가장 큰 숫자는 collision rate 56% 감소다. 저자들은 RAD-2가 strong diffusion-based planners와 비교해 collision rate를 56% 낮췄다고 보고했다. 또 complex urban traffic에서 real-world deployment를 통해 perceived safety와 driving smoothness가 좋아졌다고 썼다. offline benchmark만 제시한 연구보다 더 강한 주장이다.
자율주행 stack에서 볼 지점은 분명하다. generator-discriminator planning이 diffusion의 diverse trajectory 장점을 유지하면서 deployment-like feedback에서 오는 correction을 얼마나 안정적으로 붙일 수 있느냐다. 다음 검증 포인트는 BEV-Warp와 project artifacts가 다른 팀의 closed-loop reproduction에서도 같은 폭의 개선을 보이는지다.
Related Articles
Google은 2026년 4월 10일 X에서 AI Mode의 restaurant booking을 처음으로 미국 밖 8개 시장으로 넓힌다고 밝혔다. Search의 agentic reservation flow가 미국 내 실험 기능을 넘어 국제 commerce surface로 확장되기 시작했다는 의미다.
Microsoft는 2026년 4월 3일 일본에 100억 달러를 투자해 AI infrastructure, cybersecurity, workforce를 강화하겠다고 발표했다. 계획에는 일본 내 GPU access, 공공·민간 보안 협력, 그리고 2030년까지 100만 명 이상의 engineers·developers 교육이 포함된다.
Cloudflare는 2026년 4월 11일 X에서 AI app 보안이 더 이상 rate limiting만으로 끝나지 않는다고 강조했다. 연결된 자료를 보면 회사는 LLM endpoint discovery, prompt-level detection, WAF mitigation을 edge 보안의 기본 흐름으로 묶으려 한다.
Comments (0)
No comments yet. Be the first to comment!