MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance

5 September 2019

Papers citing "MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance"

46 / 96 papers shown

Title
Layer or Representation Space: What makes BERT-based Evaluation Metrics Robust? Doan Nam Long Vu N. Moosavi Steffen Eger 14 9 0 06 Sep 2022
Every picture tells a story: Image-grounded controllable stylistic story generation Holy Lovenia Bryan Wilie Romain Barraud Samuel Cahyawijaya Willy Chung Pascale Fung 16 8 0 04 Sep 2022
The Glass Ceiling of Automatic Evaluation in Natural Language Generation Pierre Colombo Maxime Peyrard Nathan Noiry Robert West Pablo Piantanida 36 11 0 31 Aug 2022
Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation of Story Generation Cyril Chhun Pierre Colombo Chloé Clavel Fabian M. Suchanek 49 50 0 24 Aug 2022
SelF-Eval: Self-supervised Fine-grained Dialogue Evaluation Longxuan Ma Ziyu Zhuang Weinan Zhang Mingda Li Ting Liu 19 4 0 17 Aug 2022
SMART: Sentences as Basic Units for Text Evaluation Reinald Kim Amplayo Peter J. Liu Yao-Min Zhao Shashi Narayan 24 21 0 01 Aug 2022
Innovations in Neural Data-to-text Generation: A Survey Mandar Sharma Ajay K. Gogineni Naren Ramakrishnan 6 10 0 25 Jul 2022
An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics Huan Yee Koh Jiaxin Ju Ming Liu Shirui Pan 73 122 0 03 Jul 2022
Approximating 1-Wasserstein Distance with Trees M. Yamada Yuki Takezawa Ryoma Sato Hang Bao Zornitsa Kozareva Sujith Ravi 39 8 0 24 Jun 2022
Why is constrained neural language generation particularly challenging? Cristina Garbacea Qiaozhu Mei 49 14 0 11 Jun 2022
Descartes: Generating Short Descriptions of Wikipedia Articles Marija Sakota Maxime Peyrard Robert West VLM 18 2 0 20 May 2022
IRB-NLP at SemEval-2022 Task 1: Exploring the Relationship Between Words and Their Semantic Representations Damir Korenčić Ivan Grubišić 8 3 0 13 May 2022
Problems with Cosine as a Measure of Embedding Similarity for High Frequency Words Kaitlyn Zhou Kawin Ethayarajh Dallas Card Dan Jurafsky 21 65 0 10 May 2022
QRelScore: Better Evaluating Generated Questions with Deeper Understanding of Context-aware Relevance Xiaoqiang Wang Bang Liu Siliang Tang Lingfei Wu 14 9 0 29 Apr 2022
Repro: An Open-Source Library for Improving the Reproducibility and Usability of Publicly Available Research Code Daniel Deutsch Dan Roth AI4CE 37 2 0 29 Apr 2022
CTRLEval: An Unsupervised Reference-Free Metric for Evaluating Controlled Text Generation Pei Ke Hao Zhou Yankai Lin Peng Li Jie Zhou Xiaoyan Zhu Minlie Huang 21 37 0 02 Apr 2022
E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning Jiangjie Chen Rui Xu Ziquan Fu Wei Shi Zhongqiao Li Xinbo Zhang Changzhi Sun Lei Li Yanghua Xiao Hao Zhou ELM 23 35 0 16 Mar 2022
SummaReranker: A Multi-Task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization Mathieu Ravaut Shafiq R. Joty Nancy F. Chen MoE 10 91 0 13 Mar 2022
Input-Tuning: Adapting Unfamiliar Inputs to Frozen Pretrained Models Shengnan An Yifei Li Zeqi Lin Qian Liu Bei Chen Qiang Fu Weizhu Chen Nanning Zheng Jian-Guang Lou VLM AAML 34 39 0 07 Mar 2022
Moving Other Way: Exploring Word Mover Distance Extensions Ilya Smirnov Ivan P. Yamshchikov 11 1 0 07 Feb 2022
DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence Wei-Ye Zhao Michael Strube Steffen Eger 19 37 0 26 Jan 2022
Discourse-Aware Soft Prompting for Text Generation Marjan Ghazvininejad Vladimir Karpukhin Vera Gor Asli Celikyilmaz 23 6 0 10 Dec 2021
InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation Pierre Colombo Chloe Clave Pablo Piantanida 30 41 0 02 Dec 2021
Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors Marvin Kaster Wei-Ye Zhao Steffen Eger 19 24 0 08 Oct 2021
Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation Mingkai Deng Bowen Tan Zhengzhong Liu Eric P. Xing Zhiting Hu 16 72 0 14 Sep 2021
Biomedical Data-to-Text Generation via Fine-Tuning Transformers Ruslan Yermakov Nicholas Drago Angelo Ziletti MedIm 28 13 0 03 Sep 2021
CSDS: A Fine-Grained Chinese Dataset for Customer Service Dialogue Summarization Haitao Lin Liqun Ma Junnan Zhu Lu Xiang Yu Zhou Jiajun Zhang Chengqing Zong 22 45 0 30 Aug 2021
How to Evaluate Your Dialogue Models: A Review of Approaches Xinmeng Li Wansen Wu Long Qin Quanjun Yin ELM 22 8 0 03 Aug 2021
Evaluation of Thematic Coherence in Microblogs I. Bilal Bo Wang M. Liakata Rob Procter Adam Tsakalidis 17 5 0 30 Jun 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 6 801 0 22 Jun 2021
How well do you know your summarization datasets? Priyam Tejaswin Dhruv Naik Peng Liu 16 26 0 21 Jun 2021
Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation Xiang Lin Simeng Han Shafiq R. Joty 12 24 0 14 Jun 2021
Evaluating the Efficacy of Summarization Evaluation across Languages Fajri Koto Jey Han Lau Timothy Baldwin 42 19 0 02 Jun 2021
Towards Human-Free Automatic Quality Evaluation of German Summarization Neslihan Iskender Oleg V. Vasilyev Tim Polzehl John Bohannon Sebastian Möller 12 1 0 13 May 2021
Learning to Reason for Text Generation from Scientific Tables N. Moosavi Andreas Rucklé Dan Roth Iryna Gurevych LMTD LRM 16 20 0 16 Apr 2021
BERT: A Review of Applications in Natural Language Processing and Understanding M. V. Koroteev VLM 17 194 0 22 Mar 2021
MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers Krishna Pillutla Swabha Swayamdipta Rowan Zellers John Thickstun Sean Welleck Yejin Choi Zaïd Harchaoui 26 340 0 02 Feb 2021
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze Ece Takmaz Sandro Pezzelle Lisa Beinborn Raquel Fernández 22 22 0 09 Nov 2020
UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation Jian-Yu Guan Minlie Huang 21 69 0 16 Sep 2020
A Survey of Evaluation Metrics Used for NLG Systems Ananya B. Sai Akash Kumar Mohankumar Mitesh M. Khapra ELM 20 227 0 27 Aug 2020
SummEval: Re-evaluating Summarization Evaluation Alexander R. Fabbri Wojciech Kry'sciñski Bryan McCann Caiming Xiong R. Socher Dragomir R. Radev HILM 38 684 0 24 Jul 2020
SacreROUGE: An Open-Source Library for Using and Developing Summarization Evaluation Metrics Daniel Deutsch Dan Roth 14 26 0 10 Jul 2020
SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling F. S. Bao Hebi Li Ge Luo Minghui Qiu Yinfei Yang Youbiao He Cen Chen 16 4 0 13 May 2020
BLEURT: Learning Robust Metrics for Text Generation Thibault Sellam Dipanjan Das Ankur P. Parikh 41 1,438 0 09 Apr 2020
Fill in the BLANC: Human-free quality estimation of document summaries Oleg V. Vasilyev Vedant Dharnidharka John Bohannon 3DH 26 116 0 23 Feb 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,943 0 20 Apr 2018