UniRL-Zero: Reinforcement Learning on Unified Models with Joint Language Model and Diffusion Model Experts

20 October 2025

Fu-Yun Wang

ArXiv (abs)PDF HTML Github (24516★)

Main:10 Pages

9 Figures

Bibliography:4 Pages

4 Tables

Appendix:4 Pages

Abstract

We present UniRL-Zero, a unified reinforcement learning (RL) framework that boosts, multimodal language model understanding and reasoning, diffusion model multimedia generation, and their beneficial interaction capabilities within a unified model. Our work defines six scenarios for unified model reinforcement learning, providing systematic baselines for reinforcement learning of unified understanding and generation model. Our code is available atthis https URL.

View on arXiv

Comments on this paper