BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 798 papers shown

Title
BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation Thomas Scialom Felix Hill 20 7 0 18 Oct 2021
Learning Compact Metrics for MT Amy Pu Hyung Won Chung Ankur P. Parikh Sebastian Gehrmann Thibault Sellam 22 98 0 12 Oct 2021
Speech Summarization using Restricted Self-Attention Roshan S. Sharma Shruti Palaskar A. Black Florian Metze 17 33 0 12 Oct 2021
Can Audio Captions Be Evaluated with Image Caption Metrics? Zelin Zhou Zhiling Zhang Xuenan Xu Zeyu Xie Mengyue Wu Kenny Q. Zhu 30 41 0 10 Oct 2021
Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors Marvin Kaster Wei-Ye Zhao Steffen Eger 19 24 0 08 Oct 2021
Self-Supervised Knowledge Assimilation for Expert-Layman Text Style Transfer Wenda Xu Michael Stephen Saxon Misha Sra W. Wang MedIm 11 12 0 06 Oct 2021
Key Point Analysis via Contrastive Learning and Extractive Argument Summarization Milad Alshomary Timon Ziegenbein S. Syed Philipp Heinisch Maximilian Spliethover Philipp Cimiano Martin Potthast Henning Wachsmuth 42 15 0 30 Sep 2021
Rethinking Crowd Sourcing for Semantic Similarity Shaul Solomon Adam Cohn Hernan Rosenblum Chezi Hershkovitz Ivan P. Yamshchikov 16 2 0 24 Sep 2021
Recursively Summarizing Books with Human Feedback Jeff Wu Long Ouyang Daniel M. Ziegler Nissan Stiennon Ryan J. Lowe Jan Leike Paul Christiano ALM 21 294 0 22 Sep 2021
MiRANews: Dataset and Benchmarks for Multi-Resource-Assisted News Summarization Xinnuo Xu Ondrej Dusek Shashi Narayan Verena Rieser Ioannis Konstas HILM 23 6 0 22 Sep 2021
MOVER: Mask, Over-generate and Rank for Hyperbole Generation Yunxiang Zhang Xiaojun Wan 16 15 0 16 Sep 2021
Towards Document-Level Paraphrase Generation with Sentence Rewriting and Reordering Zhe-nan Lin Yitao Cai Xiaojun Wan 38 13 0 15 Sep 2021
Assisting the Human Fact-Checkers: Detecting All Previously Fact-Checked Claims in a Document Shaden Shaar Nikola Georgiev Firoj Alam Giovanni Da San Martino Aisha Mohamed Preslav Nakov HILM 60 26 0 14 Sep 2021
Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation Mingkai Deng Bowen Tan Zhengzhong Liu Eric P. Xing Zhiting Hu 16 72 0 14 Sep 2021
Fine Grained Human Evaluation for English-to-Chinese Machine Translation: A Case Study on Scientific Text Ming Liu Heng Zhang Guanhao Wu 26 1 0 13 Sep 2021
StreamHover: Livestream Transcript Summarization and Annotation Sangwoo Cho Franck Dernoncourt Timothy Jeewun Ganter Trung Bui Nedim Lipka Walter Chang Hailin Jin Jonathan Brandt H. Foroosh Fei Liu 3DGS AI4TS 8 29 0 11 Sep 2021
Towards Zero-shot Commonsense Reasoning with Self-supervised Refinement of Language Models T. Klein Moin Nabi ReLM LRM 27 8 0 10 Sep 2021
BiSECT: Learning to Split and Rephrase Sentences with Bitexts Joongwon Kim Mounica Maddela Reno Kriz Wei-ping Xu Chris Callison-Burch 54 25 0 10 Sep 2021
A Large-Scale Study of Machine Translation in the Turkic Languages Jamshidbek Mirzakhalov A. Babu Duygu Ataman S. Kariev Francis M. Tyers ... Esra Onal Shaxnoza Pulatova Ahsan Wahab Orhan Firat Sriram Chellappan 19 28 0 09 Sep 2021
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models Steven Y. Feng Kevin Lu Zhuofu Tao Malihe Alikhani Teruko Mitamura Eduard H. Hovy Varun Gangal LRM 25 13 0 08 Sep 2021
Mixup Decoding for Diverse Machine Translation Jicheng Li Pengzhi Gao Xuanfu Wu Yang Feng Zhongjun He Hua-Hong Wu Haifeng Wang 19 14 0 08 Sep 2021
Biomedical Data-to-Text Generation via Fine-Tuning Transformers Ruslan Yermakov Nicholas Drago Angelo Ziletti MedIm 28 13 0 03 Sep 2021
Survey of Low-Resource Machine Translation Barry Haddow Rachel Bawden Antonio Valerio Miceli Barone Jindvrich Helcl Alexandra Birch AIMat 27 147 0 01 Sep 2021
It's not Rocket Science : Interpreting Figurative Language in Narratives Tuhin Chakrabarty Yejin Choi Vered Shwartz 10 55 0 31 Aug 2021
CSDS: A Fine-Grained Chinese Dataset for Customer Service Dialogue Summarization Haitao Lin Liqun Ma Junnan Zhu Lu Xiang Yu Zhou Jiajun Zhang Chengqing Zong 22 45 0 30 Aug 2021
Are Training Resources Insufficient? Predict First Then Explain! Myeongjun Jang Thomas Lukasiewicz LRM 21 7 0 29 Aug 2021
QACE: Asking Questions to Evaluate an Image Caption Hwanhee Lee Thomas Scialom Seunghyun Yoon Franck Dernoncourt Kyomin Jung CoGe 6 18 0 28 Aug 2021
Semantic-Based Self-Critical Training For Question Generation Loïc Kwate Dassi Kwate Dassi 15 0 0 26 Aug 2021
ComSum: Commit Messages Summarization and Meaning Preservation Leshem Choshen Idan Amit 17 4 0 23 Aug 2021
Hierarchical Summarization for Longform Spoken Dialog Daniel Li Thomas Chen Albert Tung Lydia B. Chilton 11 19 0 21 Aug 2021
Semantic Answer Similarity for Evaluating Question Answering Models Julian Risch Timo Moller Julian Gutsch M. Pietsch ELM 30 66 0 13 Aug 2021
Icelandic Parallel Abstracts Corpus Haukur Barri Símonarson Vésteinn Snæbjarnarson 13 1 0 11 Aug 2021
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering Donggeon Lee Seongho Choi Youwon Jang Byoung-Tak Zhang 16 2 0 11 Aug 2021
Continual Learning for Grounded Instruction Generation by Observing Human Following Behavior Noriyuki Kojima Alane Suhr Yoav Artzi 22 24 0 10 Aug 2021
How to Evaluate Your Dialogue Models: A Review of Approaches Xinmeng Li Wansen Wu Long Qin Quanjun Yin ELM 22 8 0 03 Aug 2021
EmailSum: Abstractive Email Thread Summarization Shiyue Zhang Asli Celikyilmaz Jianfeng Gao Mohit Bansal 22 37 0 30 Jul 2021
To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for Machine Translation Tom Kocmi C. Federmann Roman Grundkiewicz Marcin Junczys-Dowmunt Hitokazu Matsushita Arul Menezes 31 201 0 22 Jul 2021
Spinning Sequence-to-Sequence Models with Meta-Backdoors Eugene Bagdasaryan Vitaly Shmatikov SILM AAML 33 8 0 22 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 53 253 0 14 Jul 2021
Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling Emily Dinan Gavin Abercrombie A. S. Bergman Shannon L. Spruit Dirk Hovy Y-Lan Boureau Verena Rieser 27 105 0 07 Jul 2021
Is GPT-3 Text Indistinguishable from Human Text? Scarecrow: A Framework for Scrutinizing Machine Text Yao Dou Maxwell Forbes Rik Koncel-Kedziorski Noah A. Smith Yejin Choi DeLMO 6 125 0 02 Jul 2021
CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding Dong Wang Ning Ding Pijian Li Haitao Zheng AAML 24 115 0 01 Jul 2021
Evaluation of Thematic Coherence in Microblogs I. Bilal Bo Wang M. Liakata Rob Procter Adam Tsakalidis 17 5 0 30 Jun 2021
UMIC: An Unreferenced Metric for Image Captioning via Contrastive Learning Hwanhee Lee Seunghyun Yoon Franck Dernoncourt Trung Bui Kyomin Jung VLM 19 44 0 26 Jun 2021
Knowledge-Grounded Self-Rationalization via Extractive and Natural Language Explanations Bodhisattwa Prasad Majumder Oana-Maria Camburu Thomas Lukasiewicz Julian McAuley 13 35 0 25 Jun 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 6 801 0 22 Jun 2021
How well do you know your summarization datasets? Priyam Tejaswin Dhruv Naik Peng Liu 16 26 0 21 Jun 2021
Trust It or Not: Confidence-Guided Automatic Radiology Report Generation Yixin Wang Zihao Lin Zhe Xu Haoyu Dong Jiang Tian Jie Luo Zhongchao Shi Yang Zhang Jianping Fan Zhiqiang He UQCV MedIm 33 11 0 21 Jun 2021
Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning Bill Yuchen Lin Seyeon Lee Xiaoyang Qiao Xiang Ren ReLM LRM 22 61 0 13 Jun 2021
Synthesizing Adversarial Negative Responses for Robust Response Ranking and Evaluation Prakhar Gupta Yulia Tsvetkov Jeffrey P. Bigham 28 22 0 10 Jun 2021