v1v2 (latest)

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

23 May 2023

Pang Wei Koh

Luke Zettlemoyer

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation"

50 / 615 papers shown

WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries

Wenting Zhao

Yu Ying Chiu

...

Yejin Choi

193

24 Jul 2024

Enhancing LLM's Cognition via Structurization

257

23 Jul 2024

Halu-J: Critique-Based Hallucination Judge

272

17 Jul 2024

Crafting the Path: Robust Query Rewriting for Information Retrieval

212

17 Jul 2024

Localizing and Mitigating Errors in Long-form Question Answering

303

16 Jul 2024

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

Hannah Sansford

Nicholas Richardson

Hermina Petric Maretic

Juba Nait Saada

223

15 Jul 2024

Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

Zilong Wang

Zifeng Wang

Long Le

Huaixiu Steven Zheng

...

318

11 Jul 2024

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

240

09 Jul 2024

STORYSUMM: Evaluating Faithfulness in Story Summarization

430

09 Jul 2024

Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models

Jiajun Zhang

384

08 Jul 2024

KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions

186

08 Jul 2024

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

424

08 Jul 2024

EVA-Score: Evaluation of Long-form Summarization on Informativeness through Extraction and Validation

152

06 Jul 2024

ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

Yuzhe Gu

Ziwei Ji

Wenwei Zhang

Chengqi Lyu

Dahua Lin

Kai Chen

HILM

205

05 Jul 2024

LLM Internal States Reveal Hallucination Risk Faced With a Query

Delong Chen

292

03 Jul 2024

Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation

Cheng-Fu Yang

...

Kai-Wei Chang

189

02 Jul 2024

DiscoveryBench: Towards Data-Driven Discovery with Large Language Models

Bodhisattwa Prasad Majumder

Bhavana Dalvi Mishra

216

01 Jul 2024

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

Philippe Laban

Alexander R. Fabbri

Caiming Xiong

Chien-Sheng Wu

RALM

349

01 Jul 2024

Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

Yunqi Xu

Tianchi Cai

Jiyan Jiang

Xierui Song

327

01 Jul 2024

FineSurE: Fine-grained Summarization Evaluation using LLMs

402

01 Jul 2024

PFME: A Modular Approach for Fine-grained Hallucination Detection and Editing of Large Language Models

185

29 Jun 2024

From RAG to RICHES: Retrieval Interlaced with Sequence Generation

192

29 Jun 2024

Molecular Facts: Desiderata for Decontextualization in LLM Fact Verification

Anisha Gunjal

Greg Durrett

HILM

271

28 Jun 2024

Scalable and Domain-General Abstractive Proposition Segmentation

Mohammad Javad Hosseini

178

28 Jun 2024

VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation

241

27 Jun 2024

Mitigating Hallucination in Fictional Character Role-Play

Julian McAuley

294

25 Jun 2024

CaLMQA: Exploring culturally specific long-form question answering across 23 languages

449

25 Jun 2024

CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation

371

24 Jun 2024

One Thousand and One Pairs: A "novel" challenge for long-context language models

388

24 Jun 2024

Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

Cheng-Yu Hsieh

Yung-Sung Chuang

Chun-Liang Li

Zifeng Wang

Long T. Le

...

347

23 Jun 2024

Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

Yarin Gal

315

116

22 Jun 2024

MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning

Jiali Cheng

Hadi Amiri

BDL

315

21 Jun 2024

Factual Dialogue Summarization via Learning from Large Language Models

Rongxin Zhu

Jey Han Lau

Jianzhong Qi

HILM

267

20 Jun 2024

An Analysis of Multilingual FActScore

Franck Dernoncourt

345

20 Jun 2024

PostMark: A Robust Blackbox Watermark for Large Language Models

185

20 Jun 2024

Selected Languages are All You Need for Cross-lingual Truthfulness Transfer

360

20 Jun 2024

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia

Yufang Hou

Alessandra Pascale

Javier Carnerero-Cano

176

19 Jun 2024

Synchronous Faithfulness Monitoring for Trustworthy Retrieval-Augmented GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Di Wu

Jia-Chen Gu

Fan Yin

Nanyun Peng

Kai-Wei Chang

HILM

142

19 Jun 2024

Finding Blind Spots in Evaluator LLMs with Interpretable ChecklistsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Sumanth Doddapaneni

Mohammed Safi Ur Rahman Khan

Sshubam Verma

Mitesh Khapra

226

19 Jun 2024

Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management TasksNeural Information Processing Systems (NeurIPS), 2024

...

228

19 Jun 2024

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language ModelsIEEE Access (IEEE Access), 2024

Akchay Srivastava

Atif Memon

ELM

207

19 Jun 2024

Learning to Generate Answers with Citations via Factual Consistency ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

255

19 Jun 2024

Estimating Knowledge in Large Language Models Without Generating a Single TokenConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Daniela Gottesman

Mor Geva

263

18 Jun 2024

Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models

Kang Liu

Jun Zhao

175

18 Jun 2024

Satyrn: A Platform for Analytics Augmented Generation

172

17 Jun 2024

Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector

Xiaoxue Cheng

Junyi Li

Wayne Xin Zhao

Hongzhi Zhang

Fuzheng Zhang

Di Zhang

Kun Gai

Ji-Rong Wen

HILM LLMAG

216

17 Jun 2024

Self-training Large Language Models through Knowledge Detection

Wei Jie Yeo

Teddy Ferdinan

Przemyslaw Kazienko

Frank Xing

Erik Cambria

232

17 Jun 2024

Aligning Large Language Models from Self-Reference AI Feedback with one General Principle

Xiao Wang

Qi Zhang

Dacheng Tao

332

17 Jun 2024

Large language model validity via enhanced conformal prediction methodsNeural Information Processing Systems (NeurIPS), 2024

John J. Cherian

Isaac Gibbs

Emmanuel J. Candès

237

14 Jun 2024

DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering

362

11 Jun 2024