BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 668 papers shown

Title
Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs Nicolas Boizard Kevin El Haddad C´eline Hudelot Pierre Colombo 68 14 0 28 Jan 2025
RELexED: Retrieval-Enhanced Legal Summarization with Exemplar Diversity T. Y. S. S. Santosh Chen Jia Patrick Goroncy Matthias Grabmair AILaw 34 1 0 23 Jan 2025
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek John Pavlopoulos Juli Bakagianni K. Pouli M. Gavriilidou 50 0 0 22 Jan 2025
Vision-Language Models for Automated Chest X-ray Interpretation: Leveraging ViT and GPT-2 Md. Rakibul Islam Md. Zahid Hossain Mustofa Ahmed Most. Sharmin Sultana Samu LM&MA MedIm 35 0 0 21 Jan 2025
Decoupled Sequence and Structure Generation for Realistic Antibody Design Nayoung Kim Minsu Kim Sungsoo Ahn Jinkyoo Park 47 0 0 20 Jan 2025
Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models Qiming Bao Juho Leinonen A. Peng Wanjun Zhong Gael Gendron Tim Pistotti Alice Huang Paul Denny Michael Witbrock J. Liu AI4Ed LRM 170 1 0 20 Jan 2025
RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs Jiaxing Wu Lin Ning Luyang Liu Harrison Lee Neo Wu Chao Wang Sushant Prakash S. O’Banion Bradley Green Jun Xie 71 1 0 20 Jan 2025
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators Yinhong Liu Han Zhou Zhijiang Guo Ehsan Shareghi Ivan Vulić Anna Korhonen Nigel Collier ALM 128 67 0 20 Jan 2025
Keeping LLMs Aligned After Fine-tuning: The Crucial Role of Prompt Templates Kaifeng Lyu Haoyu Zhao Xinran Gu Dingli Yu Anirudh Goyal Sanjeev Arora ALM 75 44 0 20 Jan 2025
BoK: Introducing Bag-of-Keywords Loss for Interpretable Dialogue Response Generation Suvodip Dey M. Desarkar OffRL 36 0 0 20 Jan 2025
Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking Dina Pisarevskaya Arkaitz Zubiaga 48 0 0 18 Jan 2025
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words Junyi Ao Yuancheng Wang Xiaohai Tian Dekun Chen J. Zhang Lu Lu Y. Wang Haizhou Li Z. Wu AuLLM 80 16 0 17 Jan 2025
ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems Mohita Chowdhury Yajie Vera He Aisling Higham Ernest Lim 58 1 0 14 Jan 2025
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment Difei Gu Yunhe Gao Yang Zhou Mu Zhou Dimitris N. Metaxas LM&MA 40 1 0 13 Jan 2025
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations Ruosen Li Teerth Patel Xinya Du LLMAG ALM 52 96 0 03 Jan 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 51 18 0 03 Jan 2025
A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls Sheikh Shafayat Dongkeun Yoon Woori Jang Jiwoo Choi Alice H. Oh Seohyon Jung 91 1 0 03 Jan 2025
Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations in Large Language Models Yanwen Huang Yong Zhang Ning Cheng Zhitao Li Shaojun Wang Jing Xiao 75 0 0 02 Jan 2025
LLM-as-an-Interviewer: Beyond Static Testing Through Dynamic LLM Evaluation Eunsu Kim Juyoung Suk Seungone Kim Niklas Muennighoff Dongkwan Kim Alice H. Oh ELM 78 1 0 31 Dec 2024
Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization Liqiang Jing Jingxuan Zuo Yue Zhang 28 7 0 31 Dec 2024
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models Yulei Qin Yuncheng Yang Pengcheng Guo Gang Li Hang Shao Yuchen Shi Zihan Xu Yun Gu Ke Li Xing Sun ALM 88 11 0 31 Dec 2024
MapExplorer: New Content Generation from Low-Dimensional Visualizations Xingjian Zhang Ziyang Xiong Shixuan Liu Yutong Xie Tolga Ergen Dongsub Shim Hua Xu Honglak Lee Qiaozhu Me 37 0 0 24 Dec 2024
Investigating Length Issues in Document-level Machine Translation Ziqian Peng Rachel Bawden François Yvon 69 1 0 23 Dec 2024
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization Yue Zhang Liqiang Jing Vibhav Gogate 116 2 0 19 Dec 2024
Towards Automatic Evaluation for Image Transcreation Simran Khanuja Vivek Iyer Claire He Graham Neubig ViT 77 1 0 18 Dec 2024
EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents Mengna Zhu Kaisheng Zeng Mao Wang Kaiming Xiao Lei Hou Hongbin Huang Juanzi Li 114 1 0 16 Dec 2024
Neptune: The Long Orbit to Benchmarking Long Video Understanding Arsha Nagrani Mingda Zhang Ramin Mehran Rachel Hornung N. B. Gundavarapu ... Boqing Gong Cordelia Schmid Mikhail Sirotenko Yukun Zhu Tobias Weyand 100 4 0 12 Dec 2024
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor Jiali Chen Xusen Hei Yuqi Xue Yuancheng Wei Jiayuan Xie Yi Cai Qing Li MLLM LRM 68 4 0 08 Dec 2024
OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? Z. Chen Tingzhu Chen Wenjun Zhang Guangtao Zhai 82 3 0 02 Dec 2024
Libra: Leveraging Temporal Images for Biomedical Radiology Analysis Xi Zhang Zaiqiao Meng Jake Lever Edmond S. L. Ho MedIm 96 0 0 28 Nov 2024
AMPS: ASR with Multimodal Paraphrase Supervision Amruta Parulekar Abhishek Gupta Sameep Chattopadhyay P. Jyothi 75 0 0 27 Nov 2024
TechCoach: Towards Technical-Point-Aware Descriptive Action Coaching Yuan-Ming Li An-Lan Wang Kun-Yu Lin Yu-Ming Tang Ling-an Zeng Jian-Fang Hu Wei-Shi Zheng 93 6 0 26 Nov 2024
Can LLMs be Good Graph Judger for Knowledge Graph Construction? Haoyu Huang C. L. P. Chen Conghui He Yang Li Jiawei Jiang W. Zhang 79 1 0 26 Nov 2024
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge Dawei Li Bohan Jiang Liangjie Huang Alimohammad Beigi Chengshuai Zhao ... Canyu Chen Tianhao Wu Kai Shu Lu Cheng Huan Liu ELM AILaw 108 63 0 25 Nov 2024
GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis Bo Liu K. Zou Liming Zhan Zexin Lu Xiaoyu Dong Yidi Chen Chengqiang Xie Jiannong Cao Xiao-Ming Wu Huazhu Fu 120 0 0 25 Nov 2024
CATP-LLM: Empowering Large Language Models for Cost-Aware Tool Planning Duo Wu J. Wang Yuan Meng Yanning Zhang Le Sun Zhi Wang 117 0 0 25 Nov 2024
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset Tobi Olatunji Charles Nimo A. Owodunni Tassallah Abdullahi Emmanuel Ayodele ... Michael Best Irfan Essa Stephen E. Moore Chris Fourie M. Asiedu LM&MA 71 3 0 23 Nov 2024
Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward Zhiwei Jia Yuesong Nan Huixi Zhao Gengdai Liu EGVM 86 0 0 22 Nov 2024
Human-In-the-Loop Software Development Agents Wannita Takerngsaksiri Jirat Pasuksmit Patanamon Thongtanunam C. Tantithamthavorn Ruixiong Zhang Fan Jiang Jing Li Evan Cook K. Chen Ming Wu LLMAG 95 1 0 19 Nov 2024
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model Dongyoung Go Taesun Whang Chanhee Lee Hwayeon Kim Sunghoon Park Seunghwan Ji Dongchan Kim Young-Bum Kim Young-Bum Kim LRM 101 1 0 19 Nov 2024
Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions Moran Yanuka Assaf Ben-Kish Yonatan Bitton Idan Szpektor Raja Giryes VLM 45 2 0 13 Nov 2024
Benchmarking LLMs' Judgments with No Gold Standard Shengwei Xu Yuxuan Lu Grant Schoenebeck Yuqing Kong 34 1 0 11 Nov 2024
VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models Ming Cheng Jiaying Gong Chenhan Yuan William A. Ingram Edward A. Fox Hoda Eldardiry 42 0 0 07 Nov 2024
Beemo: Benchmark of Expert-edited Machine-generated Outputs Ekaterina Artemova Jason Samuel Lucas Saranya Venkatraman Jooyoung Lee Sergei Tilga Adaku Uchendu Vladislav Mikhailov DeLMO MoE 66 4 0 06 Nov 2024
GPT for Games: An Updated Scoping Review (2020-2024) Daijin Yang Erica Kleinman Casper Harteveld LLMAG AI4TS AI4CE 46 3 0 01 Nov 2024
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xinyi Yang Yulin Yuan Lidia S. Chao DeLMO 43 1 0 31 Oct 2024
Danoliteracy of Generative Large Language Models Søren Vejlgaard Holm Lars Kai Hansen Martin Carsten Nielsen ELM 43 0 0 30 Oct 2024
Do Large Language Models Align with Core Mental Health Counseling Competencies? Viet Cuong Nguyen Mohammad Taher Dongwan Hong Vinicius Konkolics Possobom Vibha Thirunellayi Gopalakrishnan ... Zihang Li H. J. Soled Michael L. Birnbaum Srijan Kumar M. D. Choudhury ELM LM&MA AI4MH 39 3 0 29 Oct 2024
Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation Jaechang Kim Jinmin Goh Inseok Hwang Jaewoong Cho Jungseul Ok ELM 18 1 0 28 Oct 2024
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization Zhecheng Li Y. Wang Bryan Hooi Yujun Cai Naifan Cheung Nanyun Peng Kai-Wei Chang 34 1 0 26 Oct 2024