Deep reinforcement learning from human preferences

12 June 2017

Papers citing "Deep reinforcement learning from human preferences"

50 / 691 papers shown

Title
Self-Evolving Curriculum for LLM Reasoning Xiaoyin Chen Jiarui Lu Minsu Kim Dinghuai Zhang Jian Tang Alexandre Piché Nicolas Angelard-Gontier Yoshua Bengio Ehsan Kamalloo ReLM LRM 25 0 0 20 May 2025
R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model Ali Naseh Harsh Chaudhari Jaechul Roh Mingshi Wu Alina Oprea Amir Houmansadr AAML ELM 17 0 0 19 May 2025
ExpertSteer: Intervening in LLMs through Expert Knowledge Weixuan Wang Minghao Wu Barry Haddow Alexandra Birch LLMSV 17 0 0 18 May 2025
Graph-Reward-SQL: Execution-Free Reinforcement Learning for Text-to-SQL via Graph Matching and Stepwise Reward Han Weng Boyi Liu Yuanfeng Song Dun Zeng Yingxiang Yang Yi Zhan Longjie Cui Xiaoming Yin Yang Sun 12 0 0 18 May 2025
Fair-PP: A Synthetic Dataset for Aligning LLM with Personalized Preferences of Social Equity Qi Zhou Jie Zhang Dongxia Wang Qiang Liu Tianlin Li Jin Song Dong Wenhai Wang Qing Guo SyDa 9 0 0 17 May 2025
Online Iterative Self-Alignment for Radiology Report Generation Ting Xiao Lei Shi Yang Zhang HaoFeng Yang Zhe Wang Chenjia Bai 9 0 0 17 May 2025
Interactional Fairness in LLM Multi-Agent Systems: An Evaluation Framework Ruta Binkyte 4 0 0 17 May 2025
Towards Self-Improvement of Diffusion Models via Group Preference Optimization Renjie Chen Wenfeng Lin Yichen Zhang Jiangchuan Wei Boyuan Liu Chao Feng Jiao Ran Mingyu Guo 17 0 0 16 May 2025
ShiQ: Bringing back Bellman to LLMs Pierre Clavier Nathan Grinsztajn Raphaël Avalos Yannis Flet-Berliac Irem Ergun ... Eugene Tarassov Olivier Pietquin Pierre Harvey Richemond Florian Strub Matthieu Geist OffRL 14 0 0 16 May 2025
Demystifying AI Agents: The Final Generation of Intelligence Kevin J McNamara Rhea Pritham Marpu 31 0 0 15 May 2025
ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization Wenhao Shen Wanqi Yin Xiaofeng Yang Cheng Chen Chaoyue Song Zhongang Cai Lei Yang Hao Wang Guosheng Lin 40 0 0 15 May 2025
Access Controls Will Solve the Dual-Use Dilemma Evžen Wybitul AAML 31 0 0 14 May 2025
Language Agents Mirror Human Causal Reasoning Biases. How Can We Help Them Think Like Scientists? Anthony GX-Chen Dongyan Lin Mandana Samiei Doina Precup Blake A. Richards Rob Fergus Kenneth Marino CML LRM 34 0 0 14 May 2025
InfoPO: On Mutual Information Maximization for Large Language Model Alignment Teng Xiao Zhen Ge Sujay Sanghavi Tian Wang Julian Katz-Samuels Marc Versage Qingjun Cui Trishul Chilimbi 31 0 0 13 May 2025
Improved Algorithms for Differentially Private Language Model Alignment Keyu Chen Hao Tang Qinglin Liu Yizhao Xu 33 0 0 13 May 2025
Preference Optimization for Combinatorial Optimization Problems Mingjun Pan Guanquan Lin You-Wei Luo Bin Zhu Zhien Dai Lijun Sun Chun Yuan 33 0 0 13 May 2025
Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models Rei Higuchi Taiji Suzuki 36 0 0 12 May 2025
On the Robustness of Reward Models for Language Model Alignment Jiwoo Hong Noah Lee Eunki Kim Guijin Son Woojin Chung Aman Gupta Shao Tang James Thorne 29 0 0 12 May 2025
Learning Guarantee of Reward Modeling Using Deep Neural Networks Yuanhang Luo Yeheng Ge Ruijian Han Guohao Shen 36 0 0 10 May 2025
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback Aniruddha Roy Pretam Ray Abhilash Nandy Somak Aditya Pawan Goyal ALM 34 0 0 10 May 2025
TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations Shuaiyi Huang Mara Levy Anubhav Gupta Daniel Ekpo Ruijie Zheng Abhinav Shrivastava 33 0 0 09 May 2025
DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition Yuki Kadokawa Jonas Frey Takahiro Miki Takamitsu Matsubara Marco Hutter 36 0 0 09 May 2025
Policy-labeled Preference Learning: Is Preference Enough for RLHF? Taehyun Cho Seokhun Ju Seungyub Han Dohyeong Kim Kyungjae Lee Jungwoo Lee OffRL 29 0 0 06 May 2025
Soft Best-of-n Sampling for Model Alignment C. M. Verdun Alex Oesterling Himabindu Lakkaraju Flavio du Pin Calmon BDL 219 0 0 06 May 2025
RM-R1: Reward Modeling as Reasoning Xiusi Chen Gaotang Li Zehua Wang Bowen Jin Cheng Qian ... Yuanyuan Zhang D. Zhang Tong Zhang Hanghang Tong Heng Ji ReLM OffRL LRM 209 5 0 05 May 2025
A Survey on Progress in LLM Alignment from the Perspective of Reward Design Miaomiao Ji Yanqiu Wu Zhibin Wu Shoujin Wang Jian Yang Mark Dras Usman Naseem 41 1 0 05 May 2025
What Is AI Safety? What Do We Want It to Be? Jacqueline Harding Cameron Domenico Kirk-Giannini 78 0 0 05 May 2025
FairPO: Robust Preference Optimization for Fair Multi-Label Learning Soumen Kumar Mondal Akshit Varmora Prateek Chanda Ganesh Ramakrishnan 45 0 0 05 May 2025
Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach Jiancong Xiao Bojian Hou Zhanliang Wang Ruochen Jin Q. Long Weijie Su Li Shen 38 0 0 04 May 2025
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs Haoming Yang Ke Ma Xiaojun Jia Yingfei Sun Qianqian Xu Qingming Huang AAML 234 0 0 03 May 2025
Multi-agents based User Values Mining for Recommendation L. Chen Wei Yuan Tong Chen Xiangyu Zhao Nguyen Quoc Viet Hung Hongzhi Yin OffRL 55 0 0 02 May 2025
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Jen-tse Huang Joey Tianyi Zhou AAML MU 99 4 0 01 May 2025
Optimal Interactive Learning on the Job via Facility Location Planning Shivam Vats Michelle Zhao Patrick Callaghan Mingxi Jia Maxim Likhachev Oliver Kroemer George Konidaris 34 0 0 01 May 2025
Adaptive 3D UI Placement in Mixed Reality Using Deep Reinforcement Learning Feiyu Lu Mengyu Chen Hsiang Hsu Pranav Deshpande Cheng Yao Wang Blair MacIntyre 35 3 0 30 Apr 2025
Real-World Gaps in AI Governance Research Ilan Strauss Isobel Moure Tim O'Reilly Sruly Rosenblat 67 0 0 30 Apr 2025
HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation Cristina Garbacea Chenhao Tan 57 0 0 29 Apr 2025
PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations Haowen Sun Haoran Wang Chengzhong Ma Shaolong Zhang Jiawei Ye Xingyu Chen Xuguang Lan OffRL 62 1 0 29 Apr 2025
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 81 0 0 27 Apr 2025
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback Nan Lu Ethan X. Fang Junwei Lu 224 0 0 27 Apr 2025
A Simple Ensemble Strategy for LLM Inference: Towards More Stable Text Classification Junichiro Niimi 61 0 0 26 Apr 2025
Aligning Language Models for Icelandic Legal Text Summarization Þórir Hrafn Harðarson Hrafn Loftsson Stefán Ólafsson AILaw AI4TS ELM 85 0 0 25 Apr 2025
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning Chris Yichen Wei Yi Peng Xuben Wang Weijie Qiu ... Jianhao Zhang Y. Hao Xuchen Song Yang Liu Yahui Zhou OffRL AI4TS SyDa LRM VLM 79 1 0 23 Apr 2025
Do Large Language Models know who did what to whom? Joseph M. Denning Xiaohan Bryor Snefjella Idan A. Blank 67 1 0 23 Apr 2025
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model Junshu Pan Wei Shen Shulin Huang Qiji Zhou Yue Zhang 74 0 0 22 Apr 2025
Reinforcement Learning from Multi-level and Episodic Human Feedback Muhammad Qasim Elahi Somtochukwu Oguchienti Maheed H. Ahmed Mahsa Ghasemi OffRL 55 0 0 20 Apr 2025
Aligning Constraint Generation with Design Intent in Parametric CAD Evan Casey Tianyu Zhang Shu Ishida John Roger Thompson Amir Hosein Khasahmadi Joseph George Lambourne P. Jayaraman K. Willis 38 0 0 17 Apr 2025
Benchmarking LLM-based Relevance Judgment Methods Negar Arabzadeh Charles L. A. Clarke 37 0 0 17 Apr 2025
Better Estimation of the KL Divergence Between Language Models Afra Amini Tim Vieira Ryan Cotterell 53 0 0 14 Apr 2025
PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks Jian Wu Hao Yang Xinhua Zeng Guibing He Zhengzhang Chen Zhu Li Xinming Zhang Yangyang Ma Run Fang Yang Liu LRM 181 0 0 12 Apr 2025
2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization Mengyang Li Zhong Zhang 29 0 0 10 Apr 2025