Measuring Attribution in Natural Language Generation Models

23 December 2021

Hannah Rashkin

Papers citing "Measuring Attribution in Natural Language Generation Models"

50 / 136 papers shown

Title
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization Tom Hosking Hao Tang Mirella Lapata 29 2 0 01 Mar 2024
AttributionBench: How Hard is Automatic Attribution Evaluation? Yifei Li Xiang Yue Zeyi Liao Huan Sun HILM 27 13 0 23 Feb 2024
A synthetic data approach for domain generalization of NLI models Mohammad Javad Hosseini Andrey Petrov Alex Fabrikant Annie Louis SyDa 21 8 0 19 Feb 2024
Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations Cheng-Han Chiang Hung-yi Lee HILM 67 8 0 08 Feb 2024
Investigating Content Planning for Navigating Trade-offs in Knowledge-Grounded Dialogue Kushal Chawla Hannah Rashkin Gaurav Singh Tomar David Reitter 26 1 0 03 Feb 2024
How well do LLMs cite relevant medical references? An evaluation framework and analyses Kevin Wu Eric Wu Ally Cassasola Angela Zhang Kevin Wei Teresa Nguyen Sith Riantawan Patricia Shi Riantawan Daniel E. Ho James Y. Zou LM&MA ELM AI4MH 17 26 0 03 Feb 2024
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains Alon Jacovi Yonatan Bitton Bernd Bohnet Jonathan Herzig Or Honovich Michael Tseng Michael Collins Roee Aharoni Mor Geva LRM 31 18 0 01 Feb 2024
CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models Yuanjie Lyu Zhiyu Li Simin Niu Feiyu Xiong Bo Tang Wenjin Wang Hao Wu Huan Liu Tong Bill Xu Enhong Chen RALM 29 32 0 30 Jan 2024
Benchmarking Large Language Models in Complex Question Answering Attribution using Knowledge Graphs Nan Hu Jiaoyan Chen Yike Wu Guilin Qi Sheng Bi Tongtong Wu Jeff Z. Pan HILM 37 8 0 26 Jan 2024
From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape Timothy R. McIntosh Teo Susnjak Tong Liu Paul Watters Malka N. Halgamuge 79 46 0 18 Dec 2023
Towards Verifiable Text Generation with Evolving Memory and Self-Reflection Hao-Lun Sun Hengyi Cai Bo Wang Yingyan Hou Xiaochi Wei Shuaiqiang Wang Yan Zhang Dawei Yin 39 8 0 14 Dec 2023
DelucionQA: Detecting Hallucinations in Domain-specific Question Answering Mobashir Sadat Zhengyu Zhou Lukas Lange Jun Araki Arsalan Gundroo Bingqing Wang Rakesh R Menon Md. Rizwan Parvez Zhe Feng HILM 37 35 0 08 Dec 2023
Axiomatic Preference Modeling for Longform Question Answering Corby Rosset Guoqing Zheng Victor C. Dibia Ahmed Hassan Awadallah Paul Bennett SyDa 19 3 0 02 Dec 2023
Unifying Corroborative and Contributive Attributions in Large Language Models Theodora Worledge Judy Hanwen Shen Nicole Meister Caleb Winston Carlos Guestrin TDI 21 10 0 20 Nov 2023
Effective Large Language Model Adaptation for Improved Grounding and Citation Generation Xi Ye Ruoxi Sun Sercan Ö. Arik Tomas Pfister HILM 26 25 0 16 Nov 2023
ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems Jon Saad-Falcon Omar Khattab Christopher Potts Matei A. Zaharia RALM 8 104 0 16 Nov 2023
LLatrieval: LLM-Verified Retrieval for Verifiable Generation Xiaonan Li Changtai Zhu Linyang Li Zhangyue Yin Tianxiang Sun Xipeng Qiu RALM 24 24 0 14 Nov 2023
Hallucination Augmented Recitations for Language Models Abdullatif Köksal Renat Aksitov Chung-Ching Chang HILM 37 5 0 13 Nov 2023
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang Weijiang Yu Weitao Ma Weihong Zhong Zhangyin Feng ... Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu LRM HILM 36 717 0 09 Nov 2023
SEMQA: Semi-Extractive Multi-Source Question Answering Tal Schuster Á. Lelkes Haitian Sun Jai Gupta Jonathan Berant W. Cohen Donald Metzler 28 13 0 08 Nov 2023
Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic Representations Sihao Chen Hongming Zhang Tong Chen Ben Zhou Wenhao Yu Dian Yu Baolin Peng Hongwei Wang Dan Roth Dong Yu SSL 18 13 0 07 Nov 2023
A Survey of Large Language Models Attribution Dongfang Li Zetian Sun Xinshuo Hu Zhenyu Liu Ziyang Chen Baotian Hu Aiguo Wu Min Zhang HILM 13 49 0 07 Nov 2023
1-PAGER: One Pass Answer Generation and Evidence Retrieval Palak Jain Livio Baldini Soares Tom Kwiatkowski RALM 20 6 0 25 Oct 2023
SoK: Memorization in General-Purpose Large Language Models Valentin Hartmann Anshuman Suri Vincent Bindschaedler David E. Evans Shruti Tople Robert West KELM LLMAG 16 20 0 24 Oct 2023
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection Xiang Chen Duanzheng Song Honghao Gui Chengxi Wang Ningyu Zhang Jiang Yong Fei Huang Chengfei Lv Dan Zhang Huajun Chen HILM 35 15 0 18 Oct 2023
Emptying the Ocean with a Spoon: Should We Edit Models? Yuval Pinter Michael Elhadad KELM 20 26 0 18 Oct 2023
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang Xiaoze Liu Yuanhao Yue Xiangru Tang Tianhang Zhang ... Linyi Yang Jindong Wang Xing Xie Zheng-Wei Zhang Yue Zhang HILM KELM 51 182 0 11 Oct 2023
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution Xinze Li Yixin Cao2 Liangming Pan Yubo Ma Aixin Sun HILM 11 20 0 09 Oct 2023
Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations Deren Lei Yaxi Li Mengya Hu Mingyu Wang Vincent Yun Emily Ching Eslam Kamal HILM LRM 24 39 0 06 Oct 2023
Assessing Large Language Models on Climate Information Jannis Bulian Mike S. Schäfer Afra Amini Heidi Lam Massimiliano Ciaramita ... Michelle Chen Huebscher Christian Buck Niels G. Mede Markus Leippold Nadine Strauss ELM 12 20 0 04 Oct 2023
FELM: Benchmarking Factuality Evaluation of Large Language Models Shiqi Chen Yiran Zhao Jinghan Zhang Ethan Chern Siyang Gao Pengfei Liu Junxian He HILM 22 33 0 01 Oct 2023
Bridging the Gulf of Envisioning: Cognitive Design Challenges in LLM Interfaces Hariharan Subramonyam Roy Pea Christopher Pondoc Maneesh Agrawala Colleen M. Seifert 30 47 0 25 Sep 2023
Chain-of-Verification Reduces Hallucination in Large Language Models S. Dhuliawala M. Komeili Jing Xu Roberta Raileanu Xian Li Asli Celikyilmaz Jason Weston LRM HILM 22 174 0 20 Sep 2023
ChatGPT Hallucinates when Attributing Answers Guido Zuccon Bevan Koopman Razia Shaik RALM LRM HILM 41 25 0 17 Sep 2023
ExpertQA: Expert-Curated Questions and Attributed Answers Chaitanya Malaviya Subin Lee Sihao Chen Elizabeth Sieber Mark Yatskar Dan Roth ELM HILM 20 49 0 14 Sep 2023
Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems Dongyub Lee Taesun Whang Chanhee Lee Heuiseok Lim KELM 9 9 0 08 Sep 2023
Identifying and Mitigating the Security Risks of Generative AI Clark W. Barrett Bradley L Boyd Ellie Burzstein Nicholas Carlini Brad Chen ... Zulfikar Ramzan Khawaja Shams D. Song Ankur Taly Diyi Yang SILM 24 91 0 28 Aug 2023
HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution Ehsan Kamalloo A. Jafari Xinyu Crystina Zhang Nandan Thakur Jimmy J. Lin 18 41 0 31 Jul 2023
Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering Vaibhav Adlakha Parishad BehnamGhader Xing Han Lù Nicholas Meade Siva Reddy 25 119 0 31 Jul 2023
A Dialogue System for Assessing Activities of Daily Living: Improving Consistency with Grounded Knowledge Zhecheng Sheng Raymond L. Finzel M. Lucke Sheena Dufresne Maria L. Gini Serguei V. S. Pakhomov 16 0 0 15 Jul 2023
DeepOnto: A Python Package for Ontology Engineering with Deep Learning Yuan He Jiaoyan Chen Hang Dong Ian Horrocks Carlo Allocca Taehun Kim B. Sapkota 16 23 0 06 Jul 2023
Citation: A Key to Building Responsible and Accountable Large Language Models Jie Huang Kevin Chen-Chuan Chang HILM 38 17 0 05 Jul 2023
Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models Myles Foley Ambrish Rawat Taesung Lee Yufang Hou Gabriele Picco Giulio Zizzo DeLMO 30 5 0 15 Jun 2023
KL-Divergence Guided Temperature Sampling Chung-Ching Chang David Reitter Renat Aksitov Yun-hsuan Sung HILM 15 6 0 02 Jun 2023
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback Paul Roit Johan Ferret Lior Shani Roee Aharoni Geoffrey Cideron ... Olivier Bachem G. Elidan Avinatan Hassidim Olivier Pietquin Idan Szpektor HILM 15 75 0 31 May 2023
Self-Verification Improves Few-Shot Clinical Information Extraction Zelalem Gero Chandan Singh Hao Cheng Tristan Naumann Michel Galley Jianfeng Gao Hoifung Poon 40 52 0 30 May 2023
The Dangers of trusting Stochastic Parrots: Faithfulness and Trust in Open-domain Conversational Question Answering Sabrina Chiesurin Dimitris Dimakopoulos Marco Antonio Sobrevilla Cabezudo Arash Eshghi Ioannis V. Papaioannou Verena Rieser Ioannis Konstas HILM 27 25 0 25 May 2023
Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning Ximing Lu Faeze Brahman Peter West Jaehun Jang Khyathi Raghavi Chandu ... Bill Yuchen Lin Skyler Hallinan Xiang Ren Sean Welleck Yejin Choi 20 26 0 24 May 2023
PURR: Efficiently Editing Language Model Hallucinations by Denoising Language Model Corruptions Anthony Chen Panupong Pasupat Sameer Singh Hongrae Lee Kelvin Guu 24 40 0 24 May 2023
Allies: Prompting Large Language Model with Beam Search Hao-Lun Sun Xiao Liu Yeyun Gong Yan Zhang Daxin Jiang Linjun Yang Nan Duan RALM 28 5 0 24 May 2023