BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 664 papers shown

Title
Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models Donghoon Kim Minji Bae Kyuhong Shim B. Shim 26 0 0 13 May 2025
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness Jaehyun Jeon Janghan Yoon Minsoo Kim Sumin Shim Yejin Choi Hanbin Kim Youngjae Yu AAML 33 0 0 08 May 2025
Fine-Tuning Large Language Models and Evaluating Retrieval Methods for Improved Question Answering on Building Codes Mohammad Aqib Mohd Hamza Qipei Mei Ying Hei Chui RALM ELM 47 0 0 07 May 2025
Retrieval Augmented Generation Evaluation for Health Documents Mario Ceresa Lorenzo Bertolini Valentin Comte Nicholas Spadaro Barbara Raffael ... Sergio Consoli Amalia Muñoz Piñeiro Alex Patak Maddalena Querci Tobias Wiesenthal RALM 3DV 31 0 1 07 May 2025
GASCADE: Grouped Summarization of Adverse Drug Event for Enhanced Cancer Pharmacovigilance Sofia Jamil Aryan Dabad Bollampalli Areen Reddy S. Saha Rajiv Misra Adil A. Shakur 51 0 0 07 May 2025
Natural Language Generation in Healthcare: A Review of Methods and Applications Mengxian Lyu Xiaohan Li Ziyi Chen Jinqian Pan Cheng Peng Sankalp Talankar Yonghui Wu LM&MA 38 0 0 07 May 2025
Uncertainty-Aware Large Language Models for Explainable Disease Diagnosis Shuang Zhou Jiashuo Wang Zidu Xu Song Wang David Brauer ... Zaifu Zhan Yu Hou Mingquan Lin Genevieve B. Melton Rui Zhang 43 0 0 06 May 2025
SEval-Ex: A Statement-Level Framework for Explainable Summarization Evaluation Tanguy Herserant Vincent Guigue ELM 33 0 0 04 May 2025
LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning Joy Lim Jia Yin Daniel Zhang-Li Jifan Yu H. Li Shangqing Tu ... Zhiyuan Liu Huiqin Liu Lei Hou Juanzi Li Bin Xu 22 0 0 04 May 2025
Enhancing the Learning Experience: Using Vision-Language Models to Generate Questions for Educational Videos Markos Stamatakis Joshua Berger Christian Wartena Ralph Ewerth Anett Hoppe AI4Ed 37 0 0 03 May 2025
An LLM-Empowered Low-Resolution Vision System for On-Device Human Behavior Understanding Siyang Jiang Bufang Yang Lilin Xu Mu Yuan Yeerzhati Abudunuer ... Liekang Zeng Hongkai Chen Zhenyu Yan Xiaofan Jiang Guoliang Xing VLM 51 0 0 03 May 2025
ReLI: A Language-Agnostic Approach to Human-Robot Interaction Linus Nwankwo Bjoern Ellensohn Ozan Özdenizci Elmar Rueckert LM&Ro 45 0 0 03 May 2025
LookAlike: Consistent Distractor Generation in Math MCQs Nisarg Parikh Nigel Fernandez Alexander Scarlatos Simon Woodhead Andrew S. Lan 41 0 0 03 May 2025
CaReAQA: A Cardiac and Respiratory Audio Question Answering Model for Open-Ended Diagnostic Reasoning Tsai-Ning Wang Lin-Lin Chen Neil Zeghidour Aaqib Saeed AuLLM LM&MA 67 0 0 02 May 2025
VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos Zongxia Li Xiyang Wu Yubin Qin Guangyao Shi Hongyang Du Dinesh Manocha Tianyi Zhou Jordan Boyd-Graber MLLM 41 0 0 02 May 2025
Empowering Agentic Video Analytics Systems with Video Language Models Yuxuan Yan Shiqi Jiang Ting Cao Y. Yang Qianqian Yang Yuanchao Shu Y. Yang Lili Qiu VLM 67 0 0 01 May 2025
SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding Chenkai Zhang Yiming Lei Z. Liu Haitao Leng Shaoguo Liu Tingting Gao Qingjie Liu Yunhong Wang AI4TS 46 0 0 30 Apr 2025
How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues Suhas BN Dominik Mattioli Saeed Abdullah Rosa I. Arriaga Chris W. Wiese Andrew M. Sherrill 33 0 0 30 Apr 2025
ConSens: Assessing context grounding in open-book question answering Ivan Vankov Matyo Ivanov Adriana Correia Victor Botev ELM 61 0 0 30 Apr 2025
Synergy-CLIP: Extending CLIP with Multi-modal Integration for Robust Representation Learning Sangyeon Cho Jangyeong Jeon Mingi Kim Junyeong Kim CLIP VLM 76 0 0 30 Apr 2025
AKIBoards: A Structure-Following Multiagent System for Predicting Acute Kidney Injury David L. Gordon P. Petousis S. Nicholas Alex A. T. Bui FAtt 50 0 0 29 Apr 2025
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities Woongyeong Yeo Kangsan Kim Soyeong Jeong Jinheon Baek S. Hwang 47 0 0 29 Apr 2025
BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text Jiageng Wu Bowen Gu Ren Zhou Kevin Xie Doug Snyder ... S. Jonathan H. Chen Santiago Romero-Brufau K. J. Lin Jie Yang LM&MA ELM 92 0 0 28 Apr 2025
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI Hugo Georgenthum Cristian Cosentino Fabrizio Marozzo Pietro Liò MedIm 72 0 0 28 Apr 2025
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets Lorenz Brehme Thomas Ströhle Ruth Breu 56 0 0 28 Apr 2025
Context Selection and Rewriting for Video-based Educational Question Generation Mengxia Yu Bang Nguyen Olivia Zino Meng-Long Jiang 39 0 0 28 Apr 2025
Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom Rishika Sen Sujoy Roychowdhury Sumit Soman H. G. Ranjani Srikhetra Mohanty 54 0 0 28 Apr 2025
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks Kang Yang Xinjun Mao Shangwen Wang Y. Wang Tanghaoran Zhang Bo Lin Yihao Qin Zhang Zhang Yao Lu Kamal Al-Sabahi ALM 66 1 0 28 Apr 2025
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers Dylan Bouchard Mohit Singh Chauhan HILM 70 0 0 27 Apr 2025
ClimaEmpact: Domain-Aligned Small Language Models and Datasets for Extreme Weather Analytics Deeksha Varshney Keane Ong Rui Mao Erik Cambria G. Mengaldo 29 0 0 27 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection Atharva Kulkarni Yuan-kang Zhang Joel Ruben Antony Moniz Xiou Ge Bo-Hsiang Tseng Dhivya Piraviperumal S. Hong-ye Yu HILM 76 0 0 25 Apr 2025
Evaluating and Mitigating Bias in AI-Based Medical Text Generation Xiuying Chen Tairan Wang Juexiao Zhou Zirui Song Xin Gao X. Zhang MedIm 37 0 0 24 Apr 2025
ConTextual: Improving Clinical Text Summarization in LLMs with Context-preserving Token Filtering and Knowledge Graphs Fahmida Liza Piya Rahmatollah Beheshti 50 0 0 23 Apr 2025
Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation Ziqiao Ma Jing Ding Xuejun Zhang Dezhi Luo Jiahe Ding Sihan Xu Yuchen Huang Run Peng Joyce Chai 49 0 0 22 Apr 2025
The Viability of Crowdsourcing for RAG Evaluation Lukas Gienapp Tim Hagen Maik Frobe Matthias Hagen Benno Stein Martin Potthast Harrisen Scells 21 0 0 22 Apr 2025
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 75 0 0 21 Apr 2025
HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation Jiakai Tang Jingsen Zhang Zihang Tian Xueyang Feng Lei Wang Xu Chen OffRL 47 0 0 19 Apr 2025
FocusedAD: Character-centric Movie Audio Description Xiaojun Ye C. Wang Yiren Song Sheng Zhou Liangcheng Li Jiajun Bu VGen 51 0 0 16 Apr 2025
Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input Jian Wang Rishabh Dabral D. Luvizon Zhe Cao Lingjie Liu Thabo Beeler Christian Theobalt EgoV 45 0 0 11 Apr 2025
Regional Tiny Stories: Using Small Models to Compare Language Learning and Tokenizer Performance Nirvan Patil Malhar Abhay Inamdar Agnivo Gosai Guruprasad Pathak Anish Joshi Aryan Sagavekar Anish Joshirao Raj Abhijit Dandekar Rajat Dandekar Sreedath Panat 33 0 0 07 Apr 2025
Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG Hengran Zhang Minghao Tang Keping Bi J. Guo Shihao Liu Daiting Shi Dawei Yin Xueqi Cheng 19 0 0 07 Apr 2025
NoveltyBench: Evaluating Language Models for Humanlike Diversity Yiming Zhang Harshita Diddee Susan Holm Hanchen Liu Xinyue Liu Vinay Samuel Barry Wang Daphne Ippolito 29 1 0 07 Apr 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 38 0 0 03 Apr 2025
A Scalable Framework for Evaluating Health Language Models Neil Mallinar A. Heydari Xin Liu Anthony Z. Faranesh Brent Winslow ... Mark Malhotra Shwetak N. Patel Javier L. Prieto Daniel J. McDuff Ahmed A. Metwally LM&MA 56 2 0 30 Mar 2025
An evaluation of LLMs and Google Translate for translation of selected Indian languages via sentiment and semantic analyses Rohitash Chandra Aryan Chaudhary Yeshwanth Rayavarapu 44 0 0 27 Mar 2025
SPHERE: An Evaluation Card for Human-AI Systems Qianou Ma Dora Zhao Xinran Zhao Chenglei Si Chenyang Yang Ryan Louie Ehud Reiter Diyi Yang Tongshuang Wu ALM 50 0 0 24 Mar 2025
Summarization Metrics for Spanish and Basque: Do Automatic Scores and LLM-Judges Correlate with Humans? Jeremy Barnes Naiara Perez Alba Bonet-Jover Begoña Altuna 54 1 0 21 Mar 2025
ConSCompF: Consistency-focused Similarity Comparison Framework for Generative Large Language Models Alexey Karev Dong Xu 48 0 0 18 Mar 2025
JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System Weihang Su Baoqing Yue Qingyao Ai Yiran Hu Jiaqi Li C. Wang Kaiyuan Zhang Yueyue Wu Y. Liu AILaw ELM 106 0 0 18 Mar 2025