Better Rewards Yield Better Summaries: Learning to Summarise Without References

3 September 2019

Papers citing "Better Rewards Yield Better Summaries: Learning to Summarise Without References"

23 / 23 papers shown

Title
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model Qi Gou Cam-Tu Nguyen 27 8 0 28 Mar 2024
A Critical Evaluation of AI Feedback for Aligning Large Language Models Archit Sharma Sedrick Scott Keh Eric Mitchell Chelsea Finn Kushal Arora Thomas Kollar ALM LLMAG 21 23 0 19 Feb 2024
Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing Feiyang Han Yimin Wei Zhaofeng Liu Yanxing Qi 25 1 0 24 Nov 2023
Improving Summarization with Human Edits Zonghai Yao Benjamin J Schloss Sai P. Selvaraj 24 3 0 09 Oct 2023
Policy Learning based on Deep Koopman Representation Wenjian Hao Paulo Heredia Bowen Huang Zehui Lu Zihao Liang Shaoshuai Mou 29 1 0 24 May 2023
Reward Learning as Doubly Nonparametric Bandits: Optimal Design and Scaling Laws Kush S. Bhatia Wenshuo Guo Jacob Steinhardt 11 0 0 23 Feb 2023
Human-in-the-loop Abstractive Dialogue Summarization Jiaao Chen Mohan Dodda Diyi Yang 20 10 0 19 Dec 2022
Evaluating Human-Language Model Interaction Mina Lee Megha Srivastava Amelia Hardy John Thickstun Esin Durmus ... Hancheng Cao Tony Lee Rishi Bommasani Michael S. Bernstein Percy Liang LM&MA ALM 56 98 0 19 Dec 2022
The CRINGE Loss: Learning what language not to model Leonard Adolphs Tianyu Gao Jing Xu Kurt Shuster Sainbayar Sukhbaatar Jason Weston MU 23 34 0 10 Nov 2022
MACSum: Controllable Summarization with Mixed Attributes Yusen Zhang Yang Liu Ziyi Yang Yuwei Fang Yulong Chen Dragomir R. Radev Chenguang Zhu Michael Zeng Rui Zhang 31 15 0 09 Nov 2022
Universal Evasion Attacks on Summarization Scoring Wenchuan Mu Kwan Hui Lim AAML 30 1 0 25 Oct 2022
Towards Interpretable Summary Evaluation via Allocation of Contextual Embeddings to Reference Text Topics Ben Schaper Christopher Lohse Marcell Streile Andrea Giovannini Richard Osuala 16 1 0 25 Oct 2022
Innovations in Neural Data-to-text Generation: A Survey Mandar Sharma Ajay K. Gogineni Naren Ramakrishnan 29 10 0 25 Jul 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 125 101 0 05 Jun 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,915 0 04 Mar 2022
Reward Modeling for Mitigating Toxicity in Transformer-based Language Models Farshid Faal K. Schmitt Jia Yuan Yu 13 25 0 19 Feb 2022
Recursively Summarizing Books with Human Feedback Jeff Wu Long Ouyang Daniel M. Ziegler Nissan Stiennon Ryan J. Lowe Jan Leike Paul Christiano ALM 23 294 0 22 Sep 2021
Automatic Text Evaluation through the Lens of Wasserstein Barycenters Pierre Colombo Guillaume Staerman Chloé Clavel Pablo Piantanida 27 41 0 27 Aug 2021
Learning to summarize from human feedback Nisan Stiennon Long Ouyang Jeff Wu Daniel M. Ziegler Ryan J. Lowe Chelsea Voss Alec Radford Dario Amodei Paul Christiano ALM 14 1,966 0 02 Sep 2020
SummEval: Re-evaluating Summarization Evaluation Alexander R. Fabbri Wojciech Kry'sciñski Bryan McCann Caiming Xiong R. Socher Dragomir R. Radev HILM 38 688 0 24 Jul 2020
SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization Yang Gao Wei-Ye Zhao Steffen Eger ELM 19 124 0 07 May 2020
MLSUM: The Multilingual Summarization Corpus Thomas Scialom Paul-Alexis Dray Sylvain Lamprier Benjamin Piwowarski Jacopo Staiano 17 172 0 30 Apr 2020
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 255 13,364 0 25 Aug 2014