SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes

v1v2 (latest)

SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes

Annual Meeting of the Association for Computational Linguistics (ACL), 2022

19 December 2022

Lei Li

William Yang Wang

ArXiv (abs)PDF HTML Github (17★)

Papers citing "SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic Mistakes"

7 / 7 papers shown

Title
Searching for Difficult-to-Translate Test Examples at Scale Wenda Xu Vilém Zouhar Parker Riley Mara Finkelstein Markus Freitag Daniel Deutsch AAML 150 0 0 30 Sep 2025
Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation SystemsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Chinmay Dandekar Wenyuan Xu Xi Xu Siqi Ouyang Lei Li ELM 135 0 0 07 Oct 2024
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image CaptioningAsian Conference on Computer Vision (ACCV), 2024 Kazuki Matsuda Yuiga Wada Komei Sugiura 232 6 0 28 Sep 2024
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Yuiga Wada Kanta Kaneda Daichi Saito Komei Sugiura 183 45 0 28 Feb 2024
N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics Sajad Mousavi Ricardo Luna Gutierrez Desik Rengarajan Vineet Gundecha Ashwin Ramesh Babu Avisek Naug Antonio Guillen-Perez Soumyendu Sarkar LRM HILM KELM 170 7 0 28 Oct 2023
TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks Dongfu Jiang Yishan Li Ge Zhang Wenhao Huang Bill Yuchen Lin Wenhu Chen ALM 301 79 0 01 Oct 2023
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies Liangming Pan Michael Stephen Saxon Wenda Xu Deepak Nathani Xinyi Wang William Yang Wang KELM LRM 371 264 0 06 Aug 2023