MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance

5 September 2019

Papers citing "MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance"

50 / 96 papers shown

Title
SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation Tanguy Herserant Vincent Guigue ELM 35 0 0 04 May 2025
Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans? Jeremy Barnes Naiara Perez Alba Bonet-Jover Begoña Altuna 54 1 0 21 Mar 2025
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis Jonas Belouadi Eddy Ilg M. Keuper Hideki Tanaka Masao Utiyama Raj Dabre Steffen Eger Simone Paolo Ponzetto 50 0 0 14 Mar 2025
Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation SeongYeub Chu JongWoo Kim MunYong Yi 55 1 0 21 Feb 2025
Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation Mingqi Gao Xinyu Hu Li Lin Xiaojun Wan 28 1 0 28 Jan 2025
Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps Henry Li Ronen Basri Y. Kluger DiffM 52 2 0 13 Jan 2025
EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents Mengna Zhu Kaisheng Zeng Mao Wang Kaiming Xiao Lei Hou Hongbin Huang Juanzi Li 138 1 0 16 Dec 2024
Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation Jaechang Kim Jinmin Goh Inseok Hwang Jaewoong Cho Jungseul Ok ELM 28 1 0 28 Oct 2024
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts German Gritsai Anastasia Voznyuk Andrey Grabovoy Yury Chekhovich DeLMO 75 1 0 18 Oct 2024
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References Qiyuan Zhang Yufei Wang Tiezheng YU Yuxin Jiang Chuhan Wu ... Xin Jiang Lifeng Shang Ruiming Tang Fuyuan Lyu Chen Ma 26 4 0 07 Oct 2024
Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation Joy Mahapatra Utpal Garain 29 8 0 19 Jul 2024
MINDECHO: Role-Playing Language Agents for Key Opinion Leaders Rui Xu Dakuan Lu Xiaoyu Tan Xintao Wang Siyu Yuan Jiangjie Chen Wei Chu Xu Yinghui LLMAG 29 3 0 07 Jul 2024
FineSurE: Fine-grained Summarization Evaluation using LLMs Hwanjun Song Hang Su Igor Shalyminov Jason (Jinglun) Cai Saab Mansour HILM 26 29 0 01 Jul 2024
Edisum: Summarizing and Explaining Wikipedia Edits at Scale Marija Sakota Isaac Johnson Guosheng Feng Robert West SyDa KELM 25 2 0 04 Apr 2024
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Yuiga Wada Kanta Kaneda Daichi Saito Komei Sugiura 29 24 0 28 Feb 2024
Style-News: Incorporating Stylized News Generation and Adversarial Verification for Neural Fake News Detection Wei-Yao Wang Yu-Chieh Chang Wenjie Peng 10 0 0 27 Jan 2024
LLMEval: A Preliminary Study on How to Evaluate Large Language Models Yue Zhang Ming Zhang Haipeng Yuan Shichun Liu Yongyao Shi Tao Gui Qi Zhang Xuanjing Huang ALM ELM 16 10 0 12 Dec 2023
Interpretation modeling: Social grounding of sentences by reasoning over their implicit moral judgments Liesbeth Allein Maria Mihaela Trucscva Marie-Francine Moens 18 1 0 27 Nov 2023
X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects Minqian Liu Ying Shen Zhiyang Xu Yixin Cao Eunah Cho Vaibhav Kumar Reza Ghanadan Lifu Huang ELM LM&MA ALM 44 25 0 15 Nov 2023
Towards Effective Paraphrasing for Information Disguise Anmol Agarwal Shrey Gupta Vamshi Bonagiri Manas Gaur Joseph M. Reagle Ponnurangam Kumaraguru 22 3 0 08 Nov 2023
Evaluating Generative Ad Hoc Information Retrieval Lukas Gienapp Harrisen Scells Niklas Deckers Janek Bevendorff Shuai Wang ... Maik Frobe Guide Zucoon Benno Stein Matthias Hagen Martin Potthast RALM 30 11 0 08 Nov 2023
Tuna: Instruction Tuning using Feedback from Large Language Models Haoran Li Yiran Liu Xingxing Zhang Wei Lu Furu Wei ALM 30 3 0 20 Oct 2023
Surveying the Landscape of Text Summarization with Deep Learning: A Comprehensive Review Guanghua Wang Weili Wu AI4TS AILaw 33 3 0 13 Oct 2023
Ragas: Automated Evaluation of Retrieval Augmented Generation ES Shahul Jithin James Luis Espinosa-Anke Steven Schockaert 80 174 0 26 Sep 2023
Foundation Metrics for Evaluating Effectiveness of Healthcare Conversations Powered by Generative AI Mahyar Abbasian Elahe Khatibi Iman Azimi David Oniani Zahra Shakeri Hossein Abad ... Bryant Lin Olivier Gevaert Li-Jia Li Ramesh C. Jain Amir M. Rahmani LM&MA ELM AI4MH 23 65 0 21 Sep 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 34 3 0 08 Aug 2023
f-Divergence Minimization for Sequence-Level Knowledge Distillation Yuqiao Wen Zichao Li Wenyu Du Lili Mou 25 53 0 27 Jul 2023
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering Pei Ke Fei Huang Fei Mi Yasheng Wang Qun Liu Xiaoyan Zhu Minlie Huang ReLM ELM 34 10 0 13 Jul 2023
A Practical Toolkit for Multilingual Question and Answer Generation Asahi Ushio Fernando Alva-Manchego Jose Camacho-Collados SyDa 24 13 0 27 May 2023
Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks Anas Himmi Ekhine Irurozki Nathan Noiry Stéphan Clémençon Pierre Colombo 19 5 0 17 May 2023
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment Yang Liu Dan Iter Yichong Xu Shuohang Wang Ruochen Xu Chenguang Zhu ELM ALM LM&MA 28 1,068 0 29 Mar 2023
Towards Interpretable and Efficient Automatic Reference-Based Summarization Evaluation Yixin Liu Alexander R. Fabbri Yilun Zhao Pengfei Liu Shafiq R. Joty Chien-Sheng Wu Caiming Xiong Dragomir R. Radev 13 27 0 07 Mar 2023
Enhancing Dialogue Summarization with Topic-Aware Global- and Local- Level Centrality Xinnian Liang Shuangzhi Wu Chenhao Cui Jiaqi Bai Chao Bian Zhoujun Li 13 13 0 29 Jan 2023
MAUVE Scores for Generative Models: Theory and Practice Krishna Pillutla Lang Liu John Thickstun Sean Welleck Swabha Swayamdipta Rowan Zellers Sewoong Oh Yejin Choi Zaïd Harchaoui EGVM 23 21 0 30 Dec 2022
Toward Human-Like Evaluation for Natural Language Generation with Error Analysis Qingyu Lu Liang Ding Liping Xie Kanjian Zhang Derek F. Wong Dacheng Tao ELM ALM 32 14 0 20 Dec 2022
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation Tianxing He Jingyu Zhang Tianle Wang Sachin Kumar Kyunghyun Cho James R. Glass Yulia Tsvetkov 25 44 0 20 Dec 2022
UPTON: Preventing Authorship Leakage from Public Text Release via Data Poisoning Ziyao Wang Thai Le Dongwon Lee 22 1 0 17 Nov 2022
Universal Evasion Attacks on Summarization Scoring Wenchuan Mu Kwan Hui Lim AAML 28 1 0 25 Oct 2022
DEMETR: Diagnosing Evaluation Metrics for Translation Marzena Karpinska N. Raj Katherine Thai Yixiao Song Ankita Gupta Mohit Iyyer 21 36 0 25 Oct 2022
NeuroCounterfactuals: Beyond Minimal-Edit Counterfactuals for Richer Data Augmentation Phillip Howard Gadi Singer Vasudev Lal Yejin Choi Swabha Swayamdipta CML 48 25 0 22 Oct 2022
Taxonomy of Abstractive Dialogue Summarization: Scenarios, Approaches and Future Directions Qi Jia Yizhu Liu Siyu Ren Kenny Q. Zhu 24 6 0 18 Oct 2022
Summary Workbench: Unifying Application and Evaluation of Text Summarization Models S. Syed Dominik Schwabe Martin Potthast 22 0 0 18 Oct 2022
StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning Hong Chen D. Vo Hiroya Takamura Yusuke Miyao Hideki Nakayama 11 20 0 16 Oct 2022
BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation Tianxiang Sun Junliang He Xipeng Qiu Xuanjing Huang 22 44 0 14 Oct 2022
Towards a Unified Multi-Dimensional Evaluator for Text Generation Ming Zhong Yang Liu Da Yin Yuning Mao Yizhu Jiao Peng Liu Chenguang Zhu Heng Ji Jiawei Han ELM 34 251 0 13 Oct 2022
DATScore: Evaluating Translation with Data Augmented Translations Moussa Kamal Eddine Guokan Shang Michalis Vazirgiannis 25 5 0 12 Oct 2022
Generative Language Models for Paragraph-Level Question Generation Asahi Ushio Fernando Alva-Manchego Jose Camacho-Collados ELM 11 45 0 08 Oct 2022
Unsupervised Sentence Textual Similarity with Compositional Phrase Semantics Zihao W. Wang Jiaheng Dou Yong Zhang OT 19 4 0 05 Oct 2022
GAPX: Generalized Autoregressive Paraphrase-Identification X Yi Zhou Renyu Li Hayden Housen Ser-Nam Lim BDL 25 0 0 05 Oct 2022
COLO: A Contrastive Learning based Re-ranking Framework for One-Stage Summarization Chen An Ming Zhong Zhiyong Wu Qinen Zhu Xuanjing Huang Xipeng Qiu 12 22 0 29 Sep 2022