Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation

21 May 2020

Papers citing "Beyond User Self-Reported Likert Scale Ratings: A Comparison Model for Automatic Dialog Evaluation"

26 / 26 papers shown

Title
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 122 13 0 25 Apr 2024
Label-Efficient Model Selection for Text Generation Shir Ashury-Tahan Ariel Gera Benjamin Sznajder Leshem Choshen L. Ein-Dor Eyal Shnarch 31 4 0 12 Feb 2024
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms Jiachen T. Wang Prateek Mittal Ruoxi Jia TDI 43 5 0 20 Jan 2024
DiQAD: A Benchmark Dataset for End-to-End Open-domain Dialogue Assessment Yukun Zhao Lingyong Yan Weiwei Sun Chong Meng Shuaiqiang Wang Zhicong Cheng Zhaochun Ren Dawei Yin ELM 14 0 0 25 Oct 2023
Threshold KNN-Shapley: A Linear-Time and Privacy-Friendly Approach to Data Valuation Jiachen T. Wang Yuqing Zhu Yu-Xiang Wang R. Jia Prateek Mittal TDI 29 12 0 30 Aug 2023
Efficient Benchmarking of Language Models Yotam Perlitz Elron Bandel Ariel Gera Ofir Arviv L. Ein-Dor Eyal Shnarch Noam Slonim Michal Shmueli-Scheuer Leshem Choshen ALM 11 24 0 22 Aug 2023
DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation Felipe Garrido-Lucero Benjamin Heymann Maxime Vono P. Loiseau Vianney Perchet FedML TDI 37 3 0 03 Jun 2023
Learning the Legibility of Visual Text Perturbations D. Seth Rickard Stureborg Danish Pruthi Bhuwan Dhingra AAML 41 4 0 09 Mar 2023
Active Evaluation: Efficient NLG Evaluation with Few Pairwise Comparisons Akash Kumar Mohankumar Mitesh M. Khapra ELM AAML 19 7 0 11 Mar 2022
MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution Shifts and Training Conflicts Weixin Liang James Y. Zou OOD 35 81 0 14 Feb 2022
Human Evaluation of Conversations is an Open Problem: comparing the sensitivity of various methods for evaluating dialogue agents Eric Michael Smith Orion Hsu Rebecca Qian Stephen Roller Y-Lan Boureau Jason Weston 21 66 0 12 Jan 2022
Understanding and Improving the Exemplar-based Generation for Open-domain Conversation Seungju Han Beomsu Kim Seokjun Seo Enkhbayar Erdenee Buru Chang 28 3 0 13 Dec 2021
What Went Wrong? Explaining Overall Dialogue Quality through Utterance-Level Impacts James D. Finch Sarah E. Finch Jinho D. Choi 14 1 0 31 Oct 2021
To Rate or Not To Rate: Investigating Evaluation Methods for Generated Co-Speech Gestures Pieter Wolfert J. Girard Taras Kucherenko Tony Belpaeme 32 16 0 12 Aug 2021
Goldilocks: Consistent Crowdsourced Scalar Annotations with Relative Uncertainty Quan Ze Chen Daniel S. Weld Amy X. Zhang 18 15 0 04 Aug 2021
HERALD: An Annotation Efficient Method to Detect User Disengagement in Social Conversations Weixin Liang Kai-Hui Liang Zhou Yu 34 15 0 01 Jun 2021
Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey Jinjie Ni Tom Young Vlad Pandelea Fuzhao Xue Erik Cambria 54 267 0 10 May 2021
GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual Question Answering Weixin Liang Yanhao Jiang Zixuan Liu GNN 39 32 0 20 Apr 2021
Evaluating the Morphosyntactic Well-formedness of Generated Texts Adithya Pratapa Antonios Anastasopoulos Shruti Rijhwani Aditi Chaudhary David R. Mortensen Graham Neubig Yulia Tsvetkov 25 8 0 30 Mar 2021
How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation Julius Steen K. Markert ELM 9 13 0 27 Jan 2021
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering Weixin Liang Fei Niu Aishwarya N. Reganti Govind Thattai Gökhan Tür 26 17 0 21 Nov 2020
Neural Group Testing to Accelerate Deep Learning Weixin Liang James Y. Zou OOD 16 20 0 21 Nov 2020
ALICE: Active Learning with Contrastive Natural Language Explanations Weixin Liang James Y. Zou Zhou Yu VLM 16 50 0 22 Sep 2020
Neural Generation Meets Real People: Towards Emotionally Engaging Mixed-Initiative Conversations Ashwin Paranjape A. See Kathleen Kenealy Haojun Li Amelia Hardy Peng Qi Kaushik Ram Sadagopan Nguyet Minh Phu Dilara Soylu Christopher D. Manning 20 42 0 27 Aug 2020
A Survey of Evaluation Metrics Used for NLG Systems Ananya B. Sai Akash Kumar Mohankumar Mitesh M. Khapra ELM 25 228 0 27 Aug 2020
STEAM: Self-Supervised Taxonomy Expansion with Mini-Paths Yue Yu Yinghao Li Jiaming Shen Haoyang Feng Jimeng Sun Chao Zhang 26 58 0 18 Jun 2020