Evaluating Verifiability in Generative Search Engines

19 April 2023

Papers citing "Evaluating Verifiability in Generative Search Engines"

50 / 158 papers shown

Title
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Matthew Cer RALM 31 12 0 10 Nov 2023
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang Weijiang Yu Weitao Ma Weihong Zhong Zhangyin Feng ... Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu LRM HILM 39 718 0 09 Nov 2023
SEMQA: Semi-Extractive Multi-Source Question Answering Tal Schuster Á. Lelkes Haitian Sun Jai Gupta Jonathan Berant W. Cohen Donald Metzler 28 13 0 08 Nov 2023
Evaluating Generative Ad Hoc Information Retrieval Lukas Gienapp Harrisen Scells Niklas Deckers Janek Bevendorff Shuai Wang ... Maik Frobe Guide Zucoon Benno Stein Matthias Hagen Martin Potthast RALM 37 11 0 08 Nov 2023
Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic Representations Sihao Chen Hongming Zhang Tong Chen Ben Zhou Wenhao Yu Dian Yu Baolin Peng Hongwei Wang Dan Roth Dong Yu SSL 18 13 0 07 Nov 2023
A Survey of Large Language Models Attribution Dongfang Li Zetian Sun Xinshuo Hu Zhenyu Liu Ziyang Chen Baotian Hu Aiguo Wu Min Zhang HILM 13 49 0 07 Nov 2023
Integrating measures of replicability into scholarly search: Challenges and opportunities Chuhao Wu Tatiana Chakravorti John Carroll Sarah Rajtmajer 25 2 0 01 Nov 2023
Language Models Hallucinate, but May Excel at Fact Verification Jian-Yu Guan Jesse Dodge David Wadden Minlie Huang Hao Peng LRM HILM 26 28 0 23 Oct 2023
A Diachronic Perspective on User Trust in AI under Uncertainty S. Dhuliawala Vilém Zouhar Mennatallah El-Assady Mrinmaya Sachan 17 16 0 20 Oct 2023
Large Language Models Help Humans Verify Truthfulness -- Except When They Are Convincingly Wrong Chenglei Si Navita Goyal Sherry Tongshuang Wu Chen Zhao Shi Feng Hal Daumé Jordan L. Boyd-Graber LRM 39 39 0 19 Oct 2023
Know Where to Go: Make LLM a Relevant, Responsible, and Trustworthy Searcher Xiang Shi Jiawei Liu Yinpeng Liu Qikai Cheng Wei Lu RALM HILM KELM 27 6 0 19 Oct 2023
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection Akari Asai Zeqiu Wu Yizhong Wang Avirup Sil Hannaneh Hajishirzi RALM 159 624 0 17 Oct 2023
KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection Sehyun Choi Tianqing Fang Zhaowei Wang Yangqiu Song 30 32 0 13 Oct 2023
How Do Large Language Models Capture the Ever-changing World Knowledge? A Review of Recent Advances Zihan Zhang Meng Fang Lingxi Chen Mohammad-Reza Namazi-Rad Jun Wang KELM 19 21 0 11 Oct 2023
Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators Liang Chen Yang Deng Yatao Bian Zeyu Qin Bingzhe Wu Tat-Seng Chua Kam-Fai Wong HILM ELM 52 42 0 11 Oct 2023
Teaching Language Models to Hallucinate Less with Synthetic Tasks Erik Jones Hamid Palangi Clarisse Simoes Varun Chandrasekaran Subhabrata Mukherjee Arindam Mitra Ahmed Hassan Awadallah Ece Kamar HILM 21 23 0 10 Oct 2023
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution Xinze Li Yixin Cao2 Liangming Pan Yubo Ma Aixin Sun HILM 13 20 0 09 Oct 2023
Factuality Challenges in the Era of Large Language Models Isabelle Augenstein Timothy Baldwin Meeyoung Cha Tanmoy Chakraborty Giovanni Luca Ciampaglia ... Rubén Míguez Preslav Nakov Dietram A. Scheufele Shivam Sharma Giovanni Zagni HILM 34 41 0 08 Oct 2023
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation Tu Vu Mohit Iyyer Xuezhi Wang Noah Constant Jerry W. Wei ... Chris Tar Yun-hsuan Sung Denny Zhou Quoc Le Thang Luong KELM HILM LRM 22 186 0 05 Oct 2023
Assessing Large Language Models on Climate Information Jannis Bulian Mike S. Schäfer Afra Amini Heidi Lam Massimiliano Ciaramita ... Michelle Chen Huebscher Christian Buck Niels G. Mede Markus Leippold Nadine Strauss ELM 12 20 0 04 Oct 2023
Beyond the Chat: Executable and Verifiable Text-Editing with LLMs Philippe Laban Jesse Vig Marti A. Hearst Caiming Xiong Chien-Sheng Wu KELM 34 27 0 27 Sep 2023
Bridging the Gulf of Envisioning: Cognitive Design Challenges in LLM Interfaces Hariharan Subramonyam Roy Pea Christopher Pondoc Maneesh Agrawala Colleen M. Seifert 35 47 0 25 Sep 2023
ExpertQA: Expert-Curated Questions and Attributed Answers Chaitanya Malaviya Subin Lee Sihao Chen Elizabeth Sieber Mark Yatskar Dan Roth ELM HILM 20 50 0 14 Sep 2023
Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems Dongyub Lee Taesun Whang Chanhee Lee Heuiseok Lim KELM 11 9 0 08 Sep 2023
Benchmarking Large Language Models in Retrieval-Augmented Generation Jiawei Chen Hongyu Lin Xianpei Han Le Sun 3DV RALM 13 256 0 04 Sep 2023
Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions Reem I. Masoud Ziquan Liu Martin Ferianc Philip C. Treleaven Miguel R. D. Rodrigues 21 50 0 25 Aug 2023
Contrasting Linguistic Patterns in Human and LLM-Generated Text Alberto Muñoz-Ortiz Carlos Gómez-Rodríguez David Vilares DeLMO 22 2 0 17 Aug 2023
Separate the Wheat from the Chaff: Model Deficiency Unlearning via Parameter-Efficient Module Operation Xinshuo Hu Dongfang Li Baotian Hu Zihao Zheng Zhenyu Liu M. Zhang KELM MU 25 26 0 16 Aug 2023
HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution Ehsan Kamalloo A. Jafari Xinyu Crystina Zhang Nandan Thakur Jimmy J. Lin 24 41 0 31 Jul 2023
CHATREPORT: Democratizing Sustainability Disclosure Analysis through LLM-based Tools Jingwei Ni J. Bingler Chiara Colesanti-Senni Mathias Kraus Glen Gostlow ... Qian Wang Nicolas Webersinke Tobias Wekhof Ting Yu Markus Leippold 24 29 0 28 Jul 2023
The Extractive-Abstractive Axis: Measuring Content "Borrowing" in Generative Language Models Nedelina Teneva 13 0 0 20 Jul 2023
PubMed and Beyond: Biomedical Literature Search in the Age of Artificial Intelligence Qiao Jin Robert Leaman Zhiyong Lu LM&MA 27 41 0 18 Jul 2023
ChatGPT is Good but Bing Chat is Better for Vietnamese Students Xuan-Quy Dao Ngoc-Bich Le 11 9 0 17 Jul 2023
Right to be Forgotten in the Era of Large Language Models: Implications, Challenges, and Solutions Dawen Zhang Pamela Finckenberg-Broman Thong Hoang Shidong Pan Zhenchang Xing Mark Staples Xiwei Xu AILaw MU 27 50 0 08 Jul 2023
Comparing Traditional and LLM-based Search for Consumer Choice: A Randomized Experiment S. Spatharioti David M. Rothschild D. Goldstein Jake M. Hofman 28 44 0 07 Jul 2023
Citation: A Key to Building Responsible and Accountable Large Language Models Jie Huang Kevin Chen-Chuan Chang HILM 46 17 0 05 Jul 2023
Conformal Language Modeling Victor Quach Adam Fisch Tal Schuster Adam Yala J. Sohn Tommi Jaakkola Regina Barzilay 77 55 0 16 Jun 2023
Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health Shubo Tian Qiao Jin Lana Yeganova Po-Ting Lai Qingqing Zhu ... Donald C. Comeau R. Islamaj Aadit Kapoor Xin Gao Zhiyong Lu LM&MA MedIm AI4MH 109 209 0 15 Jun 2023
AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap Q. V. Liao J. Vaughan 36 158 0 02 Jun 2023
Concise Answers to Complex Questions: Summarization of Long-form Answers Abhilash Potluri Fangyuan Xu Eunsol Choi ELM 26 11 0 30 May 2023
Using Natural Language Explanations to Rescale Human Judgments Manya Wadhwa Jifan Chen Junyi Jessy Li Greg Durrett 33 8 0 24 May 2023
Enabling Large Language Models to Generate Text with Citations Tianyu Gao Howard Yen Jiatong Yu Danqi Chen LM&MA HILM 29 311 0 24 May 2023
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models Miaoran Li Baolin Peng Michel Galley Jianfeng Gao Zhu Zhang LRM HILM KELM 29 26 0 24 May 2023
WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia Sina J. Semnani Violet Z. Yao He Zhang M. Lam KELM AI4MH 20 72 0 23 May 2023
Hierarchical Prompting Assists Large Language Model on Web Navigation Abishek Sridhar Robert Lo Frank F. Xu Hao Zhu Shuyan Zhou LRM 22 35 0 23 May 2023
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation Sewon Min Kalpesh Krishna Xinxi Lyu M. Lewis Wen-tau Yih Pang Wei Koh Mohit Iyyer Luke Zettlemoyer Hannaneh Hajishirzi HILM ALM 56 599 0 23 May 2023
How Language Model Hallucinations Can Snowball Muru Zhang Ofir Press William Merrill Alisa Liu Noah A. Smith HILM LRM 82 253 0 22 May 2023
Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents Kranti Chalamalasetti Jana Gotze Sherzod Hakimov Brielen Madureira P. Sadler David Schlangen ELM ALM LLMAG 28 31 0 22 May 2023
LM vs LM: Detecting Factual Errors via Cross Examination Roi Cohen May Hamri Mor Geva Amir Globerson HILM 32 117 0 22 May 2023
"According to ...": Prompting Language Models Improves Quoting from Pre-Training Data Orion Weller Marc Marone Nathaniel Weir Dawn J Lawrie Daniel Khashabi Benjamin Van Durme HILM 70 44 0 22 May 2023