InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO

23 May 2025

Papers citing "InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO"

38 / 38 papers shown

Title
Development and Enhancement of Text-to-Image Diffusion Models Rajdeep Roshan Sahu VLM 162 44 0 07 Mar 2025
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning Zhun Mou Bin Xia Zhengchao Huang Wenming Yang Jiaya Jia VGen ELM LRM 110 1 0 04 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 441 699 0 20 Feb 2025
Improving Video Generation with Human Feedback Jie Liu Gongye Liu Jiajun Liang Ziyang Yuan Xiaokun Liu ... Pengfei Wan Di Zhang Kun Gai Yujiu Yang Wanli Ouyang VGen EGVM 168 26 0 23 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 395 2,031 0 22 Jan 2025
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion Jingyuan Chen Fuchen Long Jie An Zhaofan Qiu Ting Yao Jiebo Luo Tao Mei VGen DiffM 230 6 0 15 Jan 2025
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models Tianwei Yin Qiang Zhang Richard Zhang William T. Freeman F. Durand Eli Shechtman Xun Huang VGen DiffM 188 11 0 10 Dec 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 223 478 0 23 Oct 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 314 565 0 12 Aug 2024
Scaling Diffusion Transformers to 16 Billion Parameters Zhengcong Fei Mingyuan Fan Changqian Yu Debang Li Junshi Huang DiffM MoE 115 21 0 16 Jul 2024
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation Xuan He Dongfu Jiang Ge Zhang Max Ku Achint Soni ... Yaswanth Narsupalli Rongqi Fan Zhiheng Lyu Yuchen Lin Wenhu Chen EGVM VGen ALM 136 56 0 21 Jun 2024
FIFO-Diffusion: Generating Infinite Videos from Text without Training Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han DiffM VGen 113 36 0 19 May 2024
Evaluating Text-to-Visual Generation with Image-to-Text Generation Zhiqiu Lin Deepak Pathak Baiqi Li Jiayao Li Xide Xia Graham Neubig Pengchuan Zhang Deva Ramanan EGVM 153 171 0 01 Apr 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 321 1,410 0 05 Mar 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 203 1,288 0 05 Feb 2024
InstructVideo: Instructing Video Diffusion Models with Human Feedback Hangjie Yuan Shiwei Zhang Xiang Wang Yujie Wei Tao Feng Yining Pan Yingya Zhang Ziwei Liu Samuel Albanie Dong Ni VGen 114 46 0 19 Dec 2023
Diffusion Model Alignment Using Direct Preference Optimization Bram Wallace Meihua Dang Rafael Rafailov Linqi Zhou Aaron Lou Senthil Purushwalkam Stefano Ermon Caiming Xiong Shafiq Joty Nikhil Naik EGVM 162 288 0 21 Nov 2023
FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling Haonan Qiu Menghan Xia Yong Zhang Yin-Yin He Xintao Wang Ying Shan Ziwei Liu DiffM VGen 96 102 0 23 Oct 2023
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation Yi Wang Yinan He Yizhuo Li Kunchang Li Jiashuo Yu ... Ping Luo Ziwei Liu Yali Wang Limin Wang Yu Qiao VLM VGen 127 275 0 13 Jul 2023
Human Preference Score v2: A Solid Benchmark for Evaluating Human Preferences of Text-to-Image Synthesis Xiaoshi Wu Yiming Hao Keqiang Sun Yixiong Chen Feng Zhu Rui Zhao Hongsheng Li 138 316 0 15 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 405 4,189 0 29 May 2023
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models Ying Fan Olivia Watkins Yuqing Du Hao Liu Moonkyung Ryu Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh Kangwook Lee Kimin Lee 167 167 0 25 May 2023
Training Diffusion Models with Reinforcement Learning Kevin Black Michael Janner Yilun Du Ilya Kostrikov Sergey Levine EGVM 158 379 0 22 May 2023
Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation Yuval Kirstain Adam Polyak Uriel Singer Shahbuland Matiana Joe Penna Omer Levy EGVM 235 420 0 02 May 2023
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation Jiazheng Xu Xiao Liu Yuchen Wu Yuxuan Tong Qinkai Li Ming Ding Jie Tang Yuxiao Dong 185 413 0 12 Apr 2023
Human Preference Score: Better Aligning Text-to-Image Models with Human Preference Xiaoshi Wu Keqiang Sun Feng Zhu Rui Zhao Hongsheng Li 128 164 0 25 Mar 2023
PyramidFlow: High-Resolution Defect Contrastive Localization using Pyramid Normalizing Flow Jiarui Lei Xiao-Xiang Hu Yue Wang Dong Liu 111 67 0 05 Mar 2023
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 178 2,440 0 19 Dec 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 237 3,521 0 16 Oct 2022
Flow Matching for Generative Modeling Y. Lipman Ricky T. Q. Chen Heli Ben-Hamu Maximilian Nickel Matt Le OOD 311 1,394 0 06 Oct 2022
WebFace260M: A Benchmark Unveiling the Power of Million-Scale Deep Face Recognition Zheng Zhu Guan Huang Jiankang Deng Yun Ye Junjie Huang ... Jiagang Zhu Tian Yang Jiwen Lu Dalong Du Jie Zhou CVBM 152 262 0 06 Mar 2021
Partial FC: Training 10 Million Identities on a Single Machine Xiang An Xuhan Zhu Yanghua Xiao Lan Wu Ming Zhang Yuan Gao Bin Qin Debing Zhang Ying Fu CVBM 121 220 0 11 Oct 2020
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 334 7,531 0 06 Oct 2020
Big Bird: Transformers for Longer Sequences Manzil Zaheer Guru Guruganesh Kumar Avinava Dubey Joshua Ainslie Chris Alberti ... Philip Pham Anirudh Ravula Qifan Wang Li Yang Amr Ahmed VLM 616 2,109 0 28 Jul 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 1.0K 18,532 0 19 Jun 2020
Modelling rankings in R: the PlackettLuce package H. Turner Jacob van Etten D. Firth Ioannis Kosmidis ALM 45 68 0 29 Oct 2018
Choosing to Rank Stephen Ragain J. Ugander 64 6 0 13 Sep 2018
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 698 19,363 0 20 Jul 2017