Title
Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward Han Weng Boyi Liu Yuanfeng Song Dun Zeng Yingxiang Yang Yi Zhan Longjie Cui Xiaoming Yin Yang Sun 4 0 0 18 May 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 57 0 0 28 Apr 2025
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling Hang Zheng Hongshen Xu Yuncong Liu Lu Chen Pascale Fung Kai Yu 104 2 0 04 Mar 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Min Zhang LM&MA AILaw 93 154 0 28 Jan 2025
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models Michael Noukhovitch Shengyi Huang Sophie Xhonneux Arian Hosseini Rishabh Agarwal Rameswar Panda OffRL 82 5 0 23 Oct 2024
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions Yekun Chai Haoran Sun Huang Fang Shuohuan Wang Yu Sun Hua Wu 165 1 0 03 Oct 2024
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment Gerald Shen Zhilin Wang Olivier Delalleau Jiaqi Zeng Yi Dong ... Sahil Jain Ali Taghibakhshi Markel Sanz Ausin Ashwath Aithal Oleksii Kuchaiev 43 13 0 02 May 2024
ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback Zhenyu Hou Yiin Niu Zhengxiao Du Xiaohan Zhang Xiao Liu ... Qinkai Zheng Minlie Huang Hongning Wang Jie Tang Yuxiao Dong ALM 30 17 0 01 Apr 2024
BetterV: Controlled Verilog Generation with Discriminative Guidance Zehua Pei Hui-Ling Zhen M. Yuan Yu Huang Bei Yu 32 54 0 03 Feb 2024
Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning Desai Xie Jiahao Li Hao Tan Xin Sun Zhixin Shu Yi Zhou Sai Bi Soren Pirk Arie E. Kaufman 37 8 0 21 Dec 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 333 12,003 0 04 Mar 2022