Deep reinforcement learning from human preferences

12 June 2017

Papers citing "Deep reinforcement learning from human preferences"

50 / 701 papers shown

Title
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning Mustafa Shukor Alexandre Ramé Corentin Dancette Matthieu Cord LRM MLLM 48 20 0 01 Oct 2023
SELF: Self-Evolution with Language Feedback Jianqiao Lu Wanjun Zhong Wenyong Huang Yufei Wang Qi Zhu ... Weichao Wang Xingshan Zeng Lifeng Shang Xin Jiang Qun Liu LRM SyDa 29 6 0 01 Oct 2023
Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment Tianhao Wu Banghua Zhu Ruoyu Zhang Zhaojin Wen Kannan Ramchandran Jiantao Jiao 44 55 0 30 Sep 2023
"I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models Sizhe Wei Yifan Lu LRM 48 4 0 29 Sep 2023
LawBench: Benchmarking Legal Knowledge of Large Language Models Zhiwei Fei Xiaoyu Shen D. Zhu Fengzhe Zhou Zhuo Han Songyang Zhang Kai-xiang Chen Zongwen Shen Jidong Ge ELM AILaw 41 36 0 28 Sep 2023
Beyond Reverse KL: Generalizing Direct Preference Optimization with Diverse Divergence Constraints Chaoqi Wang Yibo Jiang Yuguang Yang Han Liu Yuxin Chen 42 82 0 28 Sep 2023
Language models in molecular discovery Chaoqi Wang Yibo Jiang Chenghao Yang Han Liu Yuxin Chen 35 7 0 28 Sep 2023
AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model Avamarie Brueggeman Andrea Madotto Zhaojiang Lin Tushar Nagarajan Matt Smith ... Peyman Heidari Yue Liu Kavya Srinet Babak Damavandi Anuj Kumar MLLM 39 93 0 27 Sep 2023
Adapt then Unlearn: Exploring Parameter Space Semantics for Unlearning in Generative Adversarial Networks Piyush Tiwary Atri Guha Subhodip Panda Prathosh A.P. MU GAN 59 7 0 25 Sep 2023
From Text to Source: Results in Detecting Large Language Model-Generated Content Wissam Antoun Benoît Sagot Djamé Seddah DeLMO 35 11 0 23 Sep 2023
Frustrated with Code Quality Issues? LLMs can Help! Nalin Wadhwa Jui Pradhan Atharv Sonwane Surya Prakash Sahu Nagarajan Natarajan Aditya Kanade Suresh Parthasarathy S. Rajamani 43 3 0 22 Sep 2023
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data Guan-Bo Wang Sijie Cheng Xianyuan Zhan Xiangang Li Sen Song Yang Liu ALM 27 233 0 20 Sep 2023
Evaluating ChatGPT as a Recommender System: A Rigorous Approach Dario Di Palma Giovanni Maria Biancofiore Vito Walter Anelli Fedelucio Narducci Tommaso Di Noia E. Sciascio ALM 51 27 0 07 Sep 2023
From Base to Conversational: Japanese Instruction Dataset and Tuning Large Language Models Masahiro Suzuki Masanori Hirano Hiroki Sakaji 39 6 0 07 Sep 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas Griffiths LLMAG LM&Ro 61 154 0 05 Sep 2023
Amortizing Pragmatic Program Synthesis with Rankings Yewen Pu Saujas Vaduguru Priyan Vaithilingam Elena L. Glassman Daniel Fried 29 4 0 01 Sep 2023
Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification Jasmina Gajcin J. McCarthy Rahul Nair Radu Marinescu Elizabeth M. Daly Ivana Dusparic 25 3 0 30 Aug 2023
Prompt-Based Length Controlled Generation with Reinforcement Learning Renlong Jie Xiaojun Meng Lifeng Shang Xin Jiang Qun Liu 24 8 0 23 Aug 2023
RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models Yasuto Hoshi Daisuke Miyashita Youyang Ng Kento Tatsuno Yasuhiro Morioka Osamu Torii J. Deguchi LRM 32 12 0 21 Aug 2023
A Survey on Fairness in Large Language Models Yingji Li Mengnan Du Rui Song Xin Wang Ying Wang ALM 57 60 0 20 Aug 2023
Causal Intersectionality and Dual Form of Gradient Descent for Multimodal Analysis: a Case Study on Hateful Memes Yosuke Miyanishi Minh Le Nguyen 39 2 0 19 Aug 2023
Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation Xinshuo Hu Dongfang Li Baotian Hu Zihao Zheng Zhenyu Liu Hao Fei KELM MU 40 26 0 16 Aug 2023
Active Inverse Learning in Stackelberg Trajectory Games Yue Yu Jacob Levy Negar Mehr David Fridovich-Keil Ufuk Topcu 32 2 0 15 Aug 2023
Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges Jiajia Li Mingle Xu Lirong Xiang Dong Chen Weichao Zhuang Xunyuan Yin Zhao Li 44 3 0 13 Aug 2023
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Pinjia He Shuming Shi Zhaopeng Tu SILM 76 236 0 12 Aug 2023
Adaptive Low Rank Adaptation of Segment Anything to Salient Object Detection Rui-Qing Cui Siyuan He Shi Qiu VLM 23 5 0 10 Aug 2023
SimplyRetrieve: A Private and Lightweight Retrieval-Centric Generative AI Tool Youyang Ng Daisuke Miyashita Yasuto Hoshi Yasuhiro Morioka Osamu Torii Tomoya Kodama J. Deguchi RALM 15 9 0 08 Aug 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 51 3 0 08 Aug 2023
Simple synthetic data reduces sycophancy in large language models Jerry W. Wei Da Huang Yifeng Lu Denny Zhou Quoc V. Le 40 69 0 07 Aug 2023
"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models Xinyue Shen Zhenpeng Chen Michael Backes Yun Shen Yang Zhang SILM 45 250 0 07 Aug 2023
Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation from Text Nandana Mihindukulasooriya Sanju Tiwari Carlos F. Enguix K. Lata 36 53 0 04 Aug 2023
Deception Abilities Emerged in Large Language Models Thilo Hagendorff LLMAG 40 76 0 31 Jul 2023
Rating-based Reinforcement Learning Devin White Mingkang Wu Ellen R. Novoseller Vernon J. Lawhern Nicholas R. Waytowich Yongcan Cao ALM 21 6 0 30 Jul 2023
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback Viet Dac Lai Chien Van Nguyen Nghia Trung Ngo Thuat Nguyen Franck Dernoncourt Ryan A. Rossi Thien Huu Nguyen ALM 47 133 0 29 Jul 2023
Designing Fiduciary Artificial Intelligence Sebastian Benthall David Shekman 51 4 0 27 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming-Hsuan Yang Fahad Shahbaz Khan VLM 43 119 0 25 Jul 2023
A Flexible Framework for Incorporating Patient Preferences Into Q-Learning Joshua P. Zitovsky Leslie Wilson Michael R. Kosorok 23 1 0 22 Jul 2023
"Tidy Up the Table": Grounding Common-sense Objective for Tabletop Object Rearrangement Yiqing Xu David Hsu LM&Ro LMTD 39 0 0 21 Jul 2023
Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models S. Phelps Rebecca E. Ranson LLMAG 34 1 0 20 Jul 2023
Beyond Black-Box Advice: Learning-Augmented Algorithms for MDPs with Q-Value Predictions Tongxin Li Yiheng Lin Shaolei Ren Adam Wierman AAML OffRL 41 6 0 20 Jul 2023
CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility Guohai Xu Jiayi Liu Mingshi Yan Haotian Xu Jinghui Si ... Rong Zhang Ji Zhang Chao Peng Feiyan Huang Jingren Zhou ALM ELM 42 74 0 19 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 135 11,144 0 18 Jul 2023
Do Models Explain Themselves? Counterfactual Simulatability of Natural Language Explanations Yanda Chen Ruiqi Zhong Narutatsu Ri Chen Zhao He He Jacob Steinhardt Zhou Yu Kathleen McKeown LRM 34 47 0 17 Jul 2023
Mini-Giants: "Small" Language Models and Open Source Win-Win Zhengping Zhou Lezhi Li Xinxi Chen Andy Li SyDa ALM MoE 37 6 0 17 Jul 2023
Large Language Models as Superpositions of Cultural Perspectives Grgur Kovač Masataka Sawayama Rémy Portelas Cédric Colas Peter Ford Dominey Pierre-Yves Oudeyer LLMAG 40 33 0 15 Jul 2023
Secrets of RLHF in Large Language Models Part I: PPO Rui Zheng Shihan Dou Songyang Gao Yuan Hua Wei Shen ... Hang Yan Tao Gui Qi Zhang Xipeng Qiu Xuanjing Huang ALM OffRL 55 160 0 11 Jul 2023
Copilot for Xcode: Exploring AI-Assisted Programming by Prompting Cloud-based Large Language Models C. Tan Shangxin Guo M. Wong Ching Nam Hang 24 10 0 08 Jul 2023
Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback Taeho Yoon Kibeom Myoung Keon Lee Jaewoong Cho Albert No Ernest K. Ryu 23 8 0 06 Jul 2023
Jailbroken: How Does LLM Safety Training Fail? Alexander Wei Nika Haghtalab Jacob Steinhardt 127 856 0 05 Jul 2023
Natural Language Generation and Understanding of Big Code for AI-Assisted Programming: A Review M. Wong Shangxin Guo Ching Nam Hang Siu-Wai Ho C. Tan 47 78 0 04 Jul 2023