Title
Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward Han Weng Boyi Liu Yuanfeng Song Dun Zeng Yingxiang Yang Yi Zhan Longjie Cui Xiaoming Yin Yang Sun 4 0 0 18 May 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 57 0 0 28 Apr 2025
Alignment for Efficient Tool Calling of Large Language Models Hongshen Xu Zihan Wang Zichen Zhu Lei Pan Xingyu Chen Lu Chen Kai Yu 49 0 0 09 Mar 2025
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling Hang Zheng Hongshen Xu Yuncong Liu Lu Chen Pascale Fung Kai Yu 104 2 0 04 Mar 2025
Sentence-level Reward Model can Generalize Better for Aligning LLM from Human Preference Wenjie Qiu Yi-Chen Li Xuqin Zhang Tianyi Zhang Y. Zhang Zongzhang Zhang Yang Yu ALM 51 0 0 01 Mar 2025
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance Chenghua Huang Lu Wang Fangkai Yang Pu Zhao Zechao Li Qingwei Lin Dongmei Zhang Saravan Rajmohan Qi Zhang OffRL 57 1 0 24 Feb 2025
Trustworthy AI on Safety, Bias, and Privacy: A Survey Xingli Fang Jianwei Li Varun Mulchandani Jung-Eun Kim 45 0 0 11 Feb 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Min Zhang LM&MA AILaw 93 154 0 28 Jan 2025
GFlowNet Fine-tuning for Diverse Correct Solutions in Mathematical Reasoning Tasks Ryoichi Takase Masaya Tsunokake Yuta Tsuchiya Shota Inuzuka LRM 51 2 0 26 Oct 2024
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models Michael Noukhovitch Shengyi Huang Sophie Xhonneux Arian Hosseini Rishabh Agarwal Rameswar Panda OffRL 82 5 0 23 Oct 2024
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning Zongmeng Zhang Yufeng Shi Jinhua Zhu Wengang Zhou Xiang Qi Peng Zhang Yiming Li RALM HILM 24 0 0 22 Oct 2024
Understanding and Alleviating Memory Consumption in RLHF for LLMs Jin Zhou Hanmei Yang Steven Tang Mingcan Xiang Hui Guan Tongping Liu 39 0 0 21 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua Wu 174 1 0 03 Oct 2024
FlipGuard: Defending Preference Alignment against Update Regression with Constrained Optimization Mingye Zhu Yi Liu Quan Wang Junbo Guo Zhendong Mao 29 1 0 01 Oct 2024
HybridFlow: A Flexible and Efficient RLHF Framework Guangming Sheng Chi Zhang Zilingfeng Ye Xibin Wu Wang Zhang Ru Zhang Size Zheng Haibin Lin Chuan Wu AI4CE 39 88 0 28 Sep 2024
Efficient Training of Large Language Models on Distributed Infrastructures: A Survey Jiangfei Duan Shuo Zhang Zerui Wang Lijuan Jiang Wenwen Qu ... Dahua Lin Yonggang Wen Xin Jin Tianwei Zhang Peng Sun 73 8 0 29 Jul 2024
TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback Eunseop Yoon Hee Suk Yoon Soohwan Eom Gunsoo Han D. W. Nam DaeJin Jo Kyoung-Woon On M. Hasegawa-Johnson Sungwoong Kim C. Yoo ALM 38 15 0 23 Jul 2024
Solving General Natural-Language-Description Optimization Problems with Large Language Models Jihai Zhang Wei Wang Siyan Guo Li Wang Fangquan Lin Cheng Yang Wotao Yin 43 8 0 09 Jul 2024
Enhancing the Capability and Robustness of Large Language Models through Reinforcement Learning-Driven Query Refinement Zisu Huang Xiaohua Wang Feiran Zhang Zhibo Xu Cenyuan Zhang Xiaoqing Zheng Xuanjing Huang AAML LRM 40 4 0 01 Jul 2024
Extroversion or Introversion? Controlling The Personality of Your Large Language Models Yanquan Chen Zhen Wu Junjie Guo Shujian Huang Xinyu Dai 26 0 0 07 Jun 2024
Decoupled Alignment for Robust Plug-and-Play Adaptation Haozheng Luo Jiahao Yu Wenxin Zhang Jialong Li Jerry Yao-Chieh Hu Xingyu Xing Han Liu 51 11 0 03 Jun 2024
Are You Sure? Rank Them Again: Repeated Ranking For Better Preference Datasets Peter Devine ALM 19 3 0 29 May 2024
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization Jiancong Xiao Ziniu Li Xingyu Xie E. Getzen Cong Fang Qi Long Weijie J. Su 43 13 0 26 May 2024
Online Self-Preferring Language Models Yuanzhao Zhai Zhuo Zhang Kele Xu Hanyang Peng Yue Yu Dawei Feng Cheng Yang Bo Ding Huaimin Wang 56 0 0 23 May 2024
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework Jian Hu Xibin Wu Weixun Wang OpenLLMAI Team Dehao Zhang Yu Cao AI4CE VLM 33 92 0 20 May 2024
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment Gerald Shen Zhilin Wang Olivier Delalleau Jiaqi Zeng Yi Dong ... Sahil Jain Ali Taghibakhshi Markel Sanz Ausin Ashwath Aithal Oleksii Kuchaiev 43 13 0 02 May 2024
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study Shusheng Xu Wei Fu Jiaxuan Gao Wenjie Ye Weiling Liu Zhiyu Mei Guangju Wang Chao Yu Yi Wu 40 136 0 16 Apr 2024
ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback Zhenyu Hou Yiin Niu Zhengxiao Du Xiaohan Zhang Xiao Liu ... Qinkai Zheng Minlie Huang Hongning Wang Jie Tang Yuxiao Dong ALM 33 18 0 01 Apr 2024
Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback Hongshen Xu Zichen Zhu Situo Zhang Da Ma Shuai Fan Lu Chen Kai Yu HILM 39 34 0 27 Mar 2024
HRLAIF: Improvements in Helpfulness and Harmlessness in Open-domain Reinforcement Learning From AI Feedback Ang Li Qiugen Xiao Peng Cao Jian Tang Yi Yuan ... Weidong Guo Yukang Gan Jeffrey Xu Yu D. Wang Ying Shan VLM ALM 44 10 0 13 Mar 2024
Eliciting Better Multilingual Structured Reasoning from LLMs through Code Bryan Li Tamer Alkhouli Daniele Bonadiman Nikolaos Pappas Saab Mansour LRM 42 7 0 05 Mar 2024
Online Training of Large Language Models: Learn while chatting Juhao Liang Ziwei Wang Zhuoheng Ma Jianquan Li Zhiyi Zhang Xiangbo Wu Benyou Wang KELM 39 3 0 04 Mar 2024
Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships Myung Gyo Oh Hong Eun Ahn L. Park T.-H. Kwon MIALM AAML 34 0 0 19 Feb 2024
Measuring and Reducing LLM Hallucination without Gold-Standard Answers Jiaheng Wei Yuanshun Yao Jean-François Ton Hongyi Guo Andrew Estornell Yang Liu HILM 55 18 0 16 Feb 2024
ODIN: Disentangled Reward Mitigates Hacking in RLHF Lichang Chen Chen Zhu Davit Soselia Jiuhai Chen Dinesh Manocha Tom Goldstein Heng-Chiao Huang M. Shoeybi Bryan Catanzaro AAML 50 53 0 11 Feb 2024
Aligner: Efficient Alignment by Learning to Correct Jiaming Ji Boyuan Chen Hantao Lou Chongye Guo Borong Zhang Xuehai Pan Juntao Dai Tianyi Qiu Yaodong Yang 29 28 0 04 Feb 2024
BetterV: Controlled Verilog Generation with Discriminative Guidance Zehua Pei Hui-Ling Zhen M. Yuan Yu Huang Bei Yu 32 56 0 03 Feb 2024
Towards Efficient Exact Optimization of Language Model Alignment Haozhe Ji Cheng Lu Yilin Niu Pei Ke Hongning Wang Jun Zhu Jie Tang Minlie Huang 58 12 0 01 Feb 2024
EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis Zhiwei Liu Kailai Yang Tianlin Zhang Qianqian Xie Sophia Ananiadou 28 39 0 16 Jan 2024
PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas Holdém via Large Language Model Chenghao Huang Yanbo Cao Yinlong Wen Tao Zhou Yanru Zhang OffRL LLMAG 37 6 0 04 Jan 2024
Uncertainty-Penalized Reinforcement Learning from Human Feedback with Diverse Reward LoRA Ensembles Yuanzhao Zhai Han Zhang Yu Lei Yue Yu Kele Xu Dawei Feng Bo Ding Huaimin Wang AI4CE 75 32 0 30 Dec 2023
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning Desai Xie Jiahao Li Hao Tan Xin Sun Zhixin Shu Yi Zhou Sai Bi Soren Pirk Arie E. Kaufman 37 8 0 21 Dec 2023
An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training Youshao Xiao Weichang Wu Zhenglei Zhou Fagui Mao Shangchun Zhao Lin Ju Lei Liang Xiaolu Zhang Jun Zhou 34 5 0 19 Dec 2023
Policy Optimization in RLHF: The Impact of Out-of-preference Data Ziniu Li Tian Xu Yang Yu 26 30 0 17 Dec 2023
Unlock the Power: Competitive Distillation for Multi-Modal Large Language Models Xinwei Li Li Lin Shuai Wang Chen Qian 9 3 0 14 Nov 2023
Black-Box Prompt Optimization: Aligning Large Language Models without Model Training Jiale Cheng Xiao Liu Kehan Zheng Pei Ke Hongning Wang Yuxiao Dong Jie Tang Minlie Huang 29 79 0 07 Nov 2023
PRCA: Fitting Black-Box Large Language Models for Retrieval Question Answering via Pluggable Reward-Driven Contextual Adapter Haoyan Yang Zhitao Li Yong Zhang Jianzong Wang Ning Cheng Ming Li Jing Xiao RALM 11 28 0 23 Oct 2023
Investigating Uncertainty Calibration of Aligned Language Models under the Multiple-Choice Setting Guande He Peng Cui Jianfei Chen Wenbo Hu Jun Zhu 50 11 0 18 Oct 2023
ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models Ziniu Li Tian Xu Yushun Zhang Zhihang Lin Yang Yu Ruoyu Sun Zhimin Luo 27 51 0 16 Oct 2023
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention Z. Yao Xiaoxia Wu Conglong Li Minjia Zhang Heyang Qi Olatunji Ruwase A. A. Awan Samyam Rajbhandari Yuxiong He 39 11 0 25 Sep 2023