v1v2 (latest)

Robust Object Detection for Autonomous Driving via Curriculum-Guided Group Relative Policy Optimization

19 September 2025

Xu Jia

ArXiv (abs)PDF HTML

Main:9 Pages

1 Figures

Bibliography:2 Pages

2 Tables

Abstract

Multimodal Large Language Models (MLLMs) excel in vision-language reasoning but often struggle with structured perception tasks requiring precise localization and robustness. We propose a reinforcement learning framework that augments Group Relative Policy Optimization (GRPO) with curriculum-based data scheduling and difficulty-aware filtering. This approach stabilizes optimization under sparse, noisy rewards and enables progressive adaptation to complex samples. Evaluations on autonomous driving benchmarks demonstrate substantial improvements in detection accuracy and robustness. Ablation studies confirm the importance of reward design, KL regularization, and curriculum pacing for convergence stability and generalization. Our findings highlight reinforcement-driven optimization with structured data curricula as a scalable path toward robust and interpretable multimodal detection.

View on arXiv

Comments on this paper