Title
TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization Yanting Wang Runpeng Geng Jinghui Chen Minhao Cheng Jinyuan Jia 110 0 0 23 Nov 2025
On the Sample Complexity of Differentially Private Policy Optimization Yi He Xingyu Zhou 77 0 0 24 Oct 2025
Why DPO is a Misspecified Estimator and How to Fix It Aditya Gopalan Sayak Ray Chowdhury Debangshu Banerjee 84 0 0 23 Oct 2025
Imbalanced Gradients in RL Post-Training of Multi-Task LLMs Runzhe Wu Ankur Samanta Ayush Jain Scott Fujimoto Jeongyeol Kwon Ben Kretzu Youliang Yu Kaveh Hassani Boris Vidolov Yonathan Efroni 107 0 0 22 Oct 2025
Prompt Curriculum Learning for Efficient LLM Post-Training Zhaolin Gao Joongwon Kim Wen Sun Thorsten Joachims Sid Wang Richard Yuanzhe Pang Liang Tan 92 4 0 01 Oct 2025
MAS $^2$ : Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems Kun Wang G. Zhang ManKit Ye Xinyu Deng Dongxia Wang Xiaobin Hu Jinyang Guo Yang Liu Yufei Guo LLMAG 94 0 0 29 Sep 2025
Multi-Relation Extraction in Entity Pairs using Global Context Nilesh Atul Gupta Avinash C Panday 91 0 0 23 Jul 2025
Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling Phuc Minh Nguyen Ngoc-Hieu Nguyen Duy Nguyen Anji Liu An Mai Binh T. Nguyen Daniel Sonntag Khoa D. Doan 181 0 0 10 Jun 2025
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO Jinyoung Park Jeehye Na Jinyoung Kim H. Kim OffRL 260 16 0 09 Jun 2025
Accelerating RL for LLM Reasoning with Optimal Advantage Regression Kianté Brantley Mingyu Chen Zhaolin Gao Jason D. Lee Wen Sun Wenhao Zhan Xuezhou Zhang OffRL LRM 213 9 0 27 May 2025
Token-Importance Guided Direct Preference Optimization Yang Ning Lin Hai Liu Yibo Tian Baoliang Liu Guoqing Zhang Haijun 183 0 0 26 May 2025
RePO: Understanding Preference Learning Through ReLU-Based Optimization Junkang Wu Kexin Huang Qingsong Wen Jinyang Gao Bolin Ding Jiancan Wu Xiangnan He Xiang Wang 225 3 0 10 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 331 41 0 03 Mar 2025
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective Jiawei Huang Bingcong Li Christoph Dann Niao He OffRL 493 4 0 26 Feb 2025
Faster WIND: Accelerating Iterative Best-of- $N$ Distillation for LLM AlignmentInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024 Tong Yang Jincheng Mei H. Dai Zixin Wen Shicong Cen Dale Schuurmans Yuejie Chi Bo Dai 290 6 0 20 Feb 2025
COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences Yongxu Liu Argyris Oikonomou Weiqiang Zheng Yang Cai Arman Cohan 259 3 0 30 Oct 2024
End-to-end Training for Recommendation with Language-based User Profiles Zhaolin Gao Joyce Zhou Yijia Dai Thorsten Joachims AI4Ed 337 11 0 24 Oct 2024
Unintentional Unalignment: Likelihood Displacement in Direct Preference OptimizationInternational Conference on Learning Representations (ICLR), 2024 Noam Razin Sadhika Malladi Adithya Bhaskar Danqi Chen Sanjeev Arora Boris Hanin 587 46 0 11 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHFInternational Conference on Learning Representations (ICLR), 2024 Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 335 13 0 06 Oct 2024
The Central Role of the Loss Function in Reinforcement Learning Kaiwen Wang Nathan Kallus Wen Sun OffRL 612 10 0 19 Sep 2024
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning Yifang Chen Shuohang Wang Ziyi Yang Hiteshi Sharma Nikos Karampatziakis Donghan Yu Kevin Jamieson Simon Shaolei Du Yelong Shen OffRL 221 5 0 02 Jul 2024
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 210 40 0 29 May 2024
Robust Preference Optimization through Reward Model Distillation Adam Fisch Jacob Eisenstein Vicky Zayats Alekh Agarwal Ahmad Beirami Chirag Nagpal Peter Shaw Jonathan Berant 361 57 0 29 May 2024
Self-Play Preference Optimization for Language Model Alignment Yue Wu Zhiqing Sun Huizhuo Yuan Kaixuan Ji Yiming Yang Quanquan Gu 486 196 0 01 May 2024
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Abigail Z. Jacobs Tatsunori Hashimoto ALM 382 573 0 06 Apr 2024
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference OptimizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Zhanhui Zhou Jie Liu Chao Yang Jing Shao Yu Liu Xiangyu Yue Wanli Ouyang Yu Qiao 221 83 0 05 Oct 2023

v1v2 (latest)

REBEL: Reinforcement Learning via Regressing Relative Rewards

25 April 2024

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "REBEL: Reinforcement Learning via Regressing Relative Rewards"

26 / 26 papers shown

Title
TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization Yanting Wang Runpeng Geng Jinghui Chen Minhao Cheng Jinyuan Jia 110 0 0 23 Nov 2025
On the Sample Complexity of Differentially Private Policy Optimization Yi He Xingyu Zhou 77 0 0 24 Oct 2025
Why DPO is a Misspecified Estimator and How to Fix It Aditya Gopalan Sayak Ray Chowdhury Debangshu Banerjee 84 0 0 23 Oct 2025
Imbalanced Gradients in RL Post-Training of Multi-Task LLMs Runzhe Wu Ankur Samanta Ayush Jain Scott Fujimoto Jeongyeol Kwon Ben Kretzu Youliang Yu Kaveh Hassani Boris Vidolov Yonathan Efroni 107 0 0 22 Oct 2025
Prompt Curriculum Learning for Efficient LLM Post-Training Zhaolin Gao Joongwon Kim Wen Sun Thorsten Joachims Sid Wang Richard Yuanzhe Pang Liang Tan 92 4 0 01 Oct 2025
MAS $^2$ : Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems Kun Wang G. Zhang ManKit Ye Xinyu Deng Dongxia Wang Xiaobin Hu Jinyang Guo Yang Liu Yufei Guo LLMAG 94 0 0 29 Sep 2025
Multi-Relation Extraction in Entity Pairs using Global Context Nilesh Atul Gupta Avinash C Panday 91 0 0 23 Jul 2025
Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling Phuc Minh Nguyen Ngoc-Hieu Nguyen Duy Nguyen Anji Liu An Mai Binh T. Nguyen Daniel Sonntag Khoa D. Doan 181 0 0 10 Jun 2025
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO Jinyoung Park Jeehye Na Jinyoung Kim H. Kim OffRL 260 16 0 09 Jun 2025
Accelerating RL for LLM Reasoning with Optimal Advantage Regression Kianté Brantley Mingyu Chen Zhaolin Gao Jason D. Lee Wen Sun Wenhao Zhan Xuezhou Zhang OffRL LRM 213 9 0 27 May 2025
Token-Importance Guided Direct Preference Optimization Yang Ning Lin Hai Liu Yibo Tian Baoliang Liu Guoqing Zhang Haijun 183 0 0 26 May 2025
RePO: Understanding Preference Learning Through ReLU-Based Optimization Junkang Wu Kexin Huang Qingsong Wen Jinyang Gao Bolin Ding Jiancan Wu Xiangnan He Xiang Wang 225 3 0 10 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 331 41 0 03 Mar 2025
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective Jiawei Huang Bingcong Li Christoph Dann Niao He OffRL 493 4 0 26 Feb 2025
Faster WIND: Accelerating Iterative Best-of- $N$ Distillation for LLM AlignmentInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024 Tong Yang Jincheng Mei H. Dai Zixin Wen Shicong Cen Dale Schuurmans Yuejie Chi Bo Dai 290 6 0 20 Feb 2025
COMAL: A Convergent Meta-Algorithm for Aligning LLMs with General Preferences Yongxu Liu Argyris Oikonomou Weiqiang Zheng Yang Cai Arman Cohan 259 3 0 30 Oct 2024
End-to-end Training for Recommendation with Language-based User Profiles Zhaolin Gao Joyce Zhou Yijia Dai Thorsten Joachims AI4Ed 337 11 0 24 Oct 2024
Unintentional Unalignment: Likelihood Displacement in Direct Preference OptimizationInternational Conference on Learning Representations (ICLR), 2024 Noam Razin Sadhika Malladi Adithya Bhaskar Danqi Chen Sanjeev Arora Boris Hanin 587 46 0 11 Oct 2024
Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHFInternational Conference on Learning Representations (ICLR), 2024 Zhaolin Gao Wenhao Zhan Jonathan D. Chang Gokul Swamy Kianté Brantley Jason D. Lee Wen Sun OffRL 335 13 0 06 Oct 2024
The Central Role of the Loss Function in Reinforcement Learning Kaiwen Wang Nathan Kallus Wen Sun OffRL 612 10 0 19 Sep 2024
Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning Yifang Chen Shuohang Wang Ziyi Yang Hiteshi Sharma Nikos Karampatziakis Donghan Yu Kevin Jamieson Simon Shaolei Du Yelong Shen OffRL 221 5 0 02 Jul 2024
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 210 40 0 29 May 2024
Robust Preference Optimization through Reward Model Distillation Adam Fisch Jacob Eisenstein Vicky Zayats Alekh Agarwal Ahmad Beirami Chirag Nagpal Peter Shaw Jonathan Berant 361 57 0 29 May 2024
Self-Play Preference Optimization for Language Model Alignment Yue Wu Zhiqing Sun Huizhuo Yuan Kaixuan Ji Yiming Yang Quanquan Gu 486 196 0 01 May 2024
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators Yann Dubois Balázs Galambosi Abigail Z. Jacobs Tatsunori Hashimoto ALM 382 573 0 06 Apr 2024
Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference OptimizationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Zhanhui Zhou Jie Liu Chao Yang Jing Shao Yu Liu Xiangyu Yue Wanli Ouyang Yu Qiao 221 83 0 05 Oct 2023