Reinforcement Learning from Human Feedback

v1v2 (latest)

Reinforcement Learning from Human Feedback

16 April 2025

ArXiv (abs)PDF HTML

Papers citing "Reinforcement Learning from Human Feedback"

18 / 18 papers shown

Title
Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics Asifullah Khan Muhammad Zaeem Khan Saleha Jamshed Sadia Ahmad Aleesha Zainab Kaynat Khatib Faria Bibi Abdul Rehman OffRL LRM 37 0 0 14 Jun 2025
Know What You Don't Know: Uncertainty Calibration of Process Reward Models Young-Jin Park Kristjan Greenewald Kaveh Alim Hao Wang Navid Azizan LRM 66 0 0 11 Jun 2025
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs Zeming Wei Chengcan Wu Meng Sun 60 0 0 02 Jun 2025
Dataset Cartography for Large Language Model Alignment: Mapping and Diagnosing Preference Data Seohyeong Lee Eunwon Kim Hwaran Lee Buru Chang 72 0 0 29 May 2025
Text2Grad: Reinforcement Learning from Natural Language Feedback Hanyang Wang Lu Wang Chaoyun Zhang Tianjun Mao Si Qin Qingwei Lin Saravan Rajmohan Dongmei Zhang 80 0 0 28 May 2025
Multi-Armed Bandits Meet Large Language Models Djallel Bouneffouf Raphael Feraud 125 0 0 19 May 2025
Pairwise Calibrated Rewards for Pluralistic Alignment Daniel Halpern Evi Micha Ariel D. Procaccia Itai Shapira 25 0 0 17 May 2025
Playpen: An Environment for Exploring Learning Through Conversational Interaction Nicola Horst Davide Mazzaccara Antonia Schmidt Michael Sullivan Filippo Momentè ... Alexander Koller Oliver Lemon David Schlangen Mario Giulianelli Alessandro Suglia OffRL 120 0 0 11 Apr 2025
TLDR: Token-Level Detective Reward Model for Large Vision Language Models Deqing Fu Tong Xiao Rui Wang Wang Zhu Pengchuan Zhang Guan Pang Robin Jia Lawrence Chen 162 7 0 07 Oct 2024
Can Language Models Reason about Individualistic Human Values and Preferences? Liwei Jiang Taylor Sorensen Sydney Levine Yejin Choi 135 14 0 04 Oct 2024
NativQA: Multilingual Culturally-Aligned Natural Query for LLMs Md. Arid Hasan Maram Hasanain Fatema Ahmad Sahinur Rahman Laskar Sunaya Upadhyay Vrunda N. Sukhadia Mucahid Kutlu Shammur A. Chowdhury Firoj Alam 171 7 0 13 Jul 2024
Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? Alexander Arno Weber Klaudia Thellmann Jan Ebert Nicolas Flores-Herr Jens Lehmann Michael Fromm Mehdi Ali 72 5 0 21 Feb 2024
Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models Loka Li Zhenhao Chen Guan-Hong Chen Yixuan Zhang Yusheng Su Eric P. Xing Kun Zhang LRM 93 19 0 19 Feb 2024
Mitigating Open-Vocabulary Caption Hallucinations Assaf Ben-Kish Moran Yanuka Morris Alper Raja Giryes Hadar Averbuch-Elor MLLM VLM 123 6 0 06 Dec 2023
Can LLM-Generated Misinformation Be Detected? Canyu Chen Kai Shu DeLMO 197 182 0 25 Sep 2023
Are You Worthy of My Trust?: A Socioethical Perspective on the Impacts of Trustworthy AI Systems on the Environment and Human Society Jamell Dacon SILM 100 1 0 18 Sep 2023
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations Ning Ding Yulin Chen Bokai Xu Yujia Qin Zhi Zheng Shengding Hu Zhiyuan Liu Maosong Sun Bowen Zhou ALM 156 555 0 23 May 2023
Large Language Model Instruction Following: A Survey of Progresses and Challenges Renze Lou Kai Zhang Wenpeng Yin ALM LRM 165 25 0 18 Mar 2023