Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning

28 January 2025

Papers citing "Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning"

17 / 17 papers shown

Title
On the Connection Between Diffusion Models and Molecular Dynamics Liam Harcombe Timothy T. Duignan DiffM 35 0 0 04 Apr 2025
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations Ran Tian Kratarth Goel 31 0 0 25 Mar 2025
Evaluating and Aligning Human Economic Risk Preferences in LLMs J. Liu Yi Yang K. Tam 50 0 0 09 Mar 2025
Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems Mahfuz Ahmed Anik Abdur Rahman Azmine Toushik Wasi Md Manjurul Ahsan 41 0 0 05 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 34 7 0 03 Mar 2025
Approximated Variational Bayesian Inverse Reinforcement Learning for Large Language Model Alignment Yuang Cai Yuyu Yuan Jinsheng Shi Qinhong Lin 23 0 0 14 Nov 2024
LRHP: Learning Representations for Human Preferences via Preference Pairs Chenglong Wang Yang Gan Yifu Huo Yongyu Mu Qiaozhi He Murun Yang Tong Xiao Chunliang Zhang Tongran Liu Jingbo Zhu AI4TS 29 0 0 06 Oct 2024
Forward KL Regularized Preference Optimization for Aligning Diffusion Policies Zhao Shan Chenyou Fan Shuang Qiu Jiyuan Shi Chenjia Bai 25 3 0 09 Sep 2024
ProgressGym: Alignment with a Millennium of Moral Progress Tianyi Qiu Yang Zhang Xuchuan Huang Jasmine Xinze Li Jiaming Ji Yaodong Yang AI4TS 18 3 0 28 Jun 2024
Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs Rui Yang Ruomeng Ding Yong Lin Huan Zhang Tong Zhang 19 42 0 14 Jun 2024
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer Zhihan Liu Miao Lu Shenao Zhang Boyi Liu Hongyi Guo Yingxiang Yang Jose H. Blanchet Zhaoran Wang 25 41 0 26 May 2024
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment Rui Yang Xiaoman Pan Feng Luo Shuang Qiu Han Zhong Dong Yu Jianshu Chen 89 65 0 15 Feb 2024
KTO: Model Alignment as Prospect Theoretic Optimization Kawin Ethayarajh Winnie Xu Niklas Muennighoff Dan Jurafsky Douwe Kiela 153 437 0 02 Feb 2024
Understanding the Effects of RLHF on LLM Generalisation and Diversity Robert Kirk Ishita Mediratta Christoforos Nalmpantis Jelena Luketina Eric Hambro Edward Grefenstette Roberta Raileanu AI4CE ALM 95 63 0 10 Oct 2023
Improving GANs with A Dynamic Discriminator Ceyuan Yang Yujun Shen Yinghao Xu Deli Zhao Bo Dai Bolei Zhou TTA 50 23 0 20 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Language GANs Falling Short Massimo Caccia Lucas Page-Caccia W. Fedus Hugo Larochelle Joelle Pineau Laurent Charlin 112 214 0 06 Nov 2018