BLEURT: Learning Robust Metrics for Text Generation

9 April 2020

Papers citing "BLEURT: Learning Robust Metrics for Text Generation"

50 / 206 papers shown

Title
Quality Controlled Paraphrase Generation Elron Bandel R. Aharonov Michal Shmueli-Scheuer Ilya Shnayderman Noam Slonim L. Ein-Dor 17 38 0 21 Mar 2022
Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges Shikib Mehri Jinho Choi L. F. D’Haro Jan Deriu M. Eskénazi ... David Traum Yi-Ting Yeh Zhou Yu Yizhe Zhang Chen Zhang 28 21 0 18 Mar 2022
E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning Jiangjie Chen Rui Xu Ziquan Fu Wei Shi Zhongqiao Li Xinbo Zhang Changzhi Sun Lei Li Yanghua Xiao Hao Zhou ELM 23 35 0 16 Mar 2022
Diversifying Content Generation for Commonsense Reasoning with Mixture of Knowledge Graph Experts W. Yu Chenguang Zhu Lianhui Qin Zhihan Zhang Tong Zhao Meng-Long Jiang LRM 20 30 0 14 Mar 2022
Chart-to-Text: A Large-Scale Benchmark for Chart Summarization Shankar Kanthara Rixie Tiffany Ko Leong Xiang Lin Ahmed Masry Megh Thakkar Enamul Hoque Shafiq R. Joty 14 135 0 12 Mar 2022
Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models Shengnan An Yifei Li Zeqi Lin Qian Liu Bei Chen Qiang Fu Weizhu Chen Nanning Zheng Jian-Guang Lou VLM AAML 34 39 0 07 Mar 2022
Rethinking and Refining the Distinct Metric Siyang Liu Sahand Sabour Yinhe Zheng Pei Ke Xiaoyan Zhu Minlie Huang 28 10 0 28 Feb 2022
Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation Jannis Bulian Christian Buck Wojciech Gajewski Benjamin Boerschinger Tal Schuster 22 43 0 15 Feb 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 36 2,230 0 08 Feb 2022
Pre-Trained Neural Language Models for Automatic Mobile App User Feedback Answer Generation Yue Cao Fatemeh H. Fard 6 7 0 04 Feb 2022
DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence Wei-Ye Zhao Michael Strube Steffen Eger 19 37 0 26 Jan 2022
A Survey of Controllable Text Generation using Transformer-based Pre-trained Language Models Hanqing Zhang Haolin Song Shaoyu Li Ming Zhou Dawei Song 38 213 0 14 Jan 2022
A Survey of Natural Language Generation Chenhe Dong Yinghui Li Haifan Gong M. Chen Junxin Li Ying Shen Min Yang 3DV 14 43 0 22 Dec 2021
Measure and Improve Robustness in NLP Models: A Survey Xuezhi Wang Haohan Wang Diyi Yang 139 130 0 15 Dec 2021
Towards Generating Citation Sentences for Multiple References with Intent Control Jia-yan Wu A. Shieh S. Hsu Yun-Nung Chen 15 9 0 02 Dec 2021
Context Matters in Semantically Controlled Language Generation for Task-oriented Dialogue Systems Ye Liu Wolfgang Maier Wolfgang Minker Stefan Ultes 16 4 0 28 Nov 2021
High Quality Rather than High Model Probability: Minimum Bayes Risk Decoding with Neural Metrics Markus Freitag David Grangier Qijun Tan Bowen Liang 11 92 0 17 Nov 2021
Automatic Evaluation and Moderation of Open-domain Dialogue Systems Chen Zhang João Sedoc L. F. D’Haro Rafael E. Banchs Alexander I. Rudnicky 20 36 0 03 Nov 2021
BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation Thomas Scialom Felix Hill 20 7 0 18 Oct 2021
Improving Compositional Generalization with Self-Training for Data-to-Text Generation Sanket Vaibhav Mehta J. Rao Yi Tay Mihir Kale Ankur P. Parikh Emma Strubell AI4CE 18 30 0 16 Oct 2021
Learning Compact Metrics for MT Amy Pu Hyung Won Chung Ankur P. Parikh Sebastian Gehrmann Thibault Sellam 22 98 0 12 Oct 2021
WeTS: A Benchmark for Translation Suggestion Zhen Yang Fandong Meng Yingxue Zhang Ernan Li Jie Zhou VLM 11 11 0 11 Oct 2021
Can Audio Captions Be Evaluated with Image Caption Metrics? Zelin Zhou Zhiling Zhang Xuenan Xu Zeyu Xie Mengyue Wu Kenny Q. Zhu 30 41 0 10 Oct 2021
Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors Marvin Kaster Wei-Ye Zhao Steffen Eger 19 24 0 08 Oct 2021
Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation Mingkai Deng Bowen Tan Zhengzhong Liu Eric P. Xing Zhiting Hu 16 72 0 14 Sep 2021
StreamHover: Livestream Transcript Summarization and Annotation Sangwoo Cho Franck Dernoncourt Timothy Jeewun Ganter Trung Bui Nedim Lipka Walter Chang Hailin Jin Jonathan Brandt H. Foroosh Fei Liu 3DGS AI4TS 8 29 0 11 Sep 2021
A Large-Scale Study of Machine Translation in the Turkic Languages Jamshidbek Mirzakhalov A. Babu Duygu Ataman S. Kariev Francis M. Tyers ... Esra Onal Shaxnoza Pulatova Ahsan Wahab Orhan Firat Sriram Chellappan 19 28 0 09 Sep 2021
Biomedical Data-to-Text Generation via Fine-Tuning Transformers Ruslan Yermakov Nicholas Drago Angelo Ziletti MedIm 28 13 0 03 Sep 2021
Survey of Low-Resource Machine Translation Barry Haddow Rachel Bawden Antonio Valerio Miceli Barone Jindvrich Helcl Alexandra Birch AIMat 27 147 0 01 Sep 2021
AutoChart: A Dataset for Chart-to-Text Generation Task Jiawen Zhu Jinye Ran Roy Ka-Wei Lee Kenny Choo Zhi Li 11 15 0 16 Aug 2021
Semantic Answer Similarity for Evaluating Question Answering Models Julian Risch Timo Moller Julian Gutsch M. Pietsch ELM 30 66 0 13 Aug 2021
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering Donggeon Lee Seongho Choi Youwon Jang Byoung-Tak Zhang 16 2 0 11 Aug 2021
How to Evaluate Your Dialogue Models: A Review of Approaches Xinmeng Li Wansen Wu Long Qin Quanjun Yin ELM 22 8 0 03 Aug 2021
Knowledge-intensive Language Understanding for Explainable AI A. Sheth Manas Gaur Kaushik Roy Keyur Faldu 16 48 0 02 Aug 2021
Logic-Consistency Text Generation from Semantic Parses Chang Shu Yusen Zhang Xiangyu Dong Peng Shi Tao Yu Rui Zhang 14 34 0 02 Aug 2021
To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation Tom Kocmi C. Federmann Roman Grundkiewicz Marcin Junczys-Dowmunt Hitokazu Matsushita Arul Menezes 31 201 0 22 Jul 2021
Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling Emily Dinan Gavin Abercrombie A. S. Bergman Shannon L. Spruit Dirk Hovy Y-Lan Boureau Verena Rieser 27 105 0 07 Jul 2021
Evaluation of Thematic Coherence in Microblogs I. Bilal Bo Wang M. Liakata Rob Procter Adam Tsakalidis 14 5 0 30 Jun 2021
Knowledge-Grounded Self-Rationalization via Extractive and Natural Language Explanations Bodhisattwa Prasad Majumder Oana-Maria Camburu Thomas Lukasiewicz Julian McAuley 13 35 0 25 Jun 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 6 801 0 22 Jun 2021
Thank you BART! Rewarding Pre-Trained Models Improves Formality Style Transfer Huiyuan Lai Antonio Toral Malvina Nissim 27 56 0 14 May 2021
Evaluating Attribution in Dialogue Systems: The BEGIN Benchmark Nouha Dziri Hannah Rashkin Tal Linzen David Reitter ALM 185 79 0 30 Apr 2021
Learning to Reason for Text Generation from Scientific Tables N. Moosavi Andreas Rucklé Dan Roth Iryna Gurevych LMTD LRM 13 20 0 16 Apr 2021
Reward Optimization for Neural Machine Translation with Learned Metrics Raphael Shu Kang Min Yoo Jung-Woo Ha 24 12 0 15 Apr 2021
What's in a Summary? Laying the Groundwork for Advances in Hospital-Course Summarization Griffin Adams Emily Alsentzer Mert Ketenci Jason Zucker Noémie Elhadad 33 46 0 12 Apr 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 246 283 0 02 Feb 2021
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Krishna Pillutla Swabha Swayamdipta Rowan Zellers John Thickstun Sean Welleck Yejin Choi Zaïd Harchaoui 26 340 0 02 Feb 2021
Diagnostic Captioning: A Survey John Pavlopoulos Vasiliki Kougia Ion Androutsopoulos D. Papamichail 3DV MedIm 89 26 0 18 Jan 2021
GLGE: A New General Language Generation Evaluation Benchmark Dayiheng Liu Yu Yan Yeyun Gong Weizhen Qi Hang Zhang ... Jiancheng Lv Ruofei Zhang Winnie Wu Ming Zhou Nan Duan ELM 28 66 0 24 Nov 2020
Detecting Hallucinated Content in Conditional Neural Sequence Generation Chunting Zhou Graham Neubig Jiatao Gu Mona T. Diab P. Guzmán Luke Zettlemoyer Marjan Ghazvininejad HILM 31 194 0 05 Nov 2020