BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation

18 October 2021

Papers citing "BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation"

10 / 10 papers shown

Title
RepEval: Effective Text Evaluation with LLM Representation Shuqian Sheng Yi Xu Tianhang Zhang Zanwei Shen Luoyi Fu Jiaxin Ding Lei Zhou Xinbing Wang Cheng Zhou 14 0 0 30 Apr 2024
Can We Catch the Elephant? A Survey of the Evolvement of Hallucination Evaluation on Natural Language Generation Siya Qi Yulan He Zheng Yuan LRM HILM 33 1 0 18 Apr 2024
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? Shuqian Sheng Yi Xu Luoyi Fu Jiaxin Ding Lei Zhou Xinbing Wang Cheng Zhou 19 3 0 21 Mar 2024
Revisiting Grammatical Error Correction Evaluation and Beyond Peiyuan Gong Xuebo Liu Heyan Huang Min Zhang 16 16 0 03 Nov 2022
MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification Yu Lu Liu Rachel Bawden Thomas Scaliom Benoît Sagot Jackie C.K. Cheung 23 4 0 24 May 2022
TRUE: Re-evaluating Factual Consistency Evaluation Or Honovich Roee Aharoni Jonathan Herzig Hagai Taitelbaum Doron Kukliansy Vered Cohen Thomas Scialom Idan Szpektor Avinatan Hassidim Yossi Matias HILM 24 3 0 11 Apr 2022
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 243 284 0 02 Feb 2021
SciSummPip: An Unsupervised Scientific Paper Summarization Pipeline Jiaxin Ju Ming Liu Longxiang Gao Shirui Pan 58 13 0 19 Oct 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018