HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

25 September 2018

Christopher D. Manning

RALM

ArXiv PDF HTML

Papers citing "HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering"

50 / 496 papers shown

Title
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies L. Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 49 3 0 24 Oct 2024
BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression Yuankai Li Jia-Chen Gu Di Wu Kai-Wei Chang Nanyun Peng RALM MQ 23 0 0 20 Oct 2024
Style-Compress: An LLM-Based Prompt Compression Framework Considering Task-Specific Styles Xiao Pu Tianxing He Xiaojun Wan VLM 40 3 0 17 Oct 2024
Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models Jiatao Li Xinyu Hu Xunjian Yin Xiaojun Wan RALM 53 0 0 17 Oct 2024
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems Nandan Thakur Suleman Kazi Ge Luo Jimmy J. Lin Amin Ahmad VLM RALM 28 7 0 17 Oct 2024
Probing-RAG: Self-Probing to Guide Language Models in Selective Document Retrieval Ingeol Baek Hwan Chang Byeongjeong Kim Jimin Lee Hwanhee Lee RALM 57 4 0 17 Oct 2024
RAG-DDR: Optimizing Retrieval-Augmented Generation Using Differentiable Data Rewards Xinze Li Sen Mei Zhenghao Liu Yukun Yan Shuo Wang ... H. Chen Ge Yu Zhiyuan Liu Maosong Sun Chenyan Xiong 50 7 0 17 Oct 2024
RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering Zhongwu Chen Chengjin Xu Dingmin Wang Zhen Huang Yong Dou Xuhui Jiang Jian Guo RALM 159 1 0 15 Oct 2024
Denial-of-Service Poisoning Attacks against Large Language Models Kuofeng Gao Tianyu Pang Chao Du Yong Yang Shu-Tao Xia Min-Bin Lin SILM AAML 59 4 0 14 Oct 2024
SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models H. Xia Zhengbang Yang Junbo Zou Rhys Tracy Yuqing Wang ... Xun Shao Zhuoqing Xie Yuan-fang Wang Weining Shen Hanjie Chen ReLM LRM ELM 37 2 0 11 Oct 2024
AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories Yifan Song Weimin Xiong Xiutian Zhao Dawei Zhu Wenhao Wu Ke Wang Cheng Li Wei Peng Sujian Li LLMAG 31 9 0 10 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 84 1 0 09 Oct 2024
SEGMENT+: Long Text Processing with Short-Context Language Models Wei Shi Shuang Li Kerun Yu Jinglei Chen Zujie Liang ... Feng Wei Bo Zheng Jiaqing Liang Jiangjie Chen Yanghua Xiao RALM VLM 57 2 0 09 Oct 2024
Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context Sangwon Yu Ik-hwan Kim Jongyoon Song Saehyung Lee Junsung Park Sungroh Yoon LRM 70 0 0 09 Oct 2024
Temporal Reasoning Transfer from Text to Video Lei Li Yuanxin Liu Linli Yao Peiyuan Zhang Chenxin An Lean Wang Xu Sun Lingpeng Kong Qi Liu LRM 45 7 0 08 Oct 2024
Differential Transformer Tianzhu Ye Li Dong Yuqing Xia Yutao Sun Yi Zhu Gao Huang Furu Wei 147 0 0 07 Oct 2024
System 2 Reasoning Capabilities Are Nigh Scott C. Lowe VLM LRM 46 0 0 04 Oct 2024
GraphRouter: A Graph-based Router for LLM Selections Tao Feng Yanzhen Shen Jiaxuan You 85 10 0 04 Oct 2024
How to Train Long-Context Language Models (Effectively) Tianyu Gao Alexander Wettig Howard Yen Danqi Chen RALM 72 38 0 03 Oct 2024
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations Hadas Orgad Michael Toker Zorik Gekhman Roi Reichart Idan Szpektor Hadas Kotek Yonatan Belinkov HILM AIFin 61 25 0 03 Oct 2024
MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences Genta Indra Winata David Anugraha Lucky Susanto Garry Kuwanto Derry Wijaya 37 7 0 03 Oct 2024
Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers Shijie Chen Bernal Jiménez Gutiérrez Yu Su 31 4 0 03 Oct 2024
HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly Howard Yen Tianyu Gao Minmin Hou Ke Ding Daniel Fleischer Peter Izsak Moshe Wasserblat Danqi Chen ALM ELM 62 25 0 03 Oct 2024
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding Yanming Liu Xinyue Peng Jiannan Cao Shi Bo Yanxin Shen Tianyu Du Sheng Cheng Xun Wang Jianwei Yin Xuhong Zhang 63 9 0 02 Oct 2024
QAEncoder: Towards Aligned Representation Learning in Question Answering System Zhengren Wang Qinhan Yu Shida Wei Zhiyu Li Feiyu Xiong Xiaoxing Wang Simin Niu Hao Liang Wentao Zhang RALM 25 1 0 30 Sep 2024
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" Yifei Ming Senthil Purushwalkam Shrey Pandit Zixuan Ke Xuan-Phi Nguyen Caiming Xiong Shafiq R. Joty HILM 112 16 0 30 Sep 2024
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely Siyun Zhao Yuqing Yang Zilong Wang Zhiyuan He Luna Qiu Lili Qiu SyDa RALM 3DV 44 35 0 23 Sep 2024
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge Han Wang Archiki Prasad Elias Stengel-Eskin Joey Tianyi Zhou 82 5 0 11 Sep 2024
Self-evolving Agents with reflective and memory-augmented abilities Xuechen Liang Yangfan He Yinghui Xia Xinyuan Song Jianhui Wang ... Keqin Li Jiaqi Chen Jinsong Yang Siyuan Chen Tianyu Shi LLMAG KELM CLL 41 2 0 01 Sep 2024
Task-level Distributionally Robust Optimization for Large Language Model-based Dense Retrieval Guangyuan Ma Yongliang Ma Xing Wu Zhenpeng Su Ming Zhou Songlin Hu OOD 41 2 0 20 Aug 2024
LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs Do Xuan Long Hai Nguyen Ngoc Tiviatis Sim Hieu Dao Shafiq R. Joty Kenji Kawaguchi Nancy F. Chen Min-Yen Kan 34 7 0 16 Aug 2024
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework Kunlun Zhu Yifan Luo Dingling Xu Ruobing Wang Shi Yu ... Yishan Li Zhiyuan Liu Xu Han Zhiyuan Liu Maosong Sun 29 17 0 02 Aug 2024
Correcting Negative Bias in Large Language Models through Negative Attention Score Alignment Sangwon Yu Jongyoon Song Bongkyu Hwang Hoyoung Kang Sooah Cho Junhwa Choi Seongho Joe Taehee Lee Youngjune Gwon Sungroh Yoon 117 4 0 31 Jul 2024
QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval Hongming Tan Shaoxiong Zhan Hai Lin Hai-Tao Zheng Wai Kin Chan RALM 53 1 0 29 Jul 2024
An Empirical Study of Retrieval Augmented Generation with Chain-of-Thought Yuetong Zhao Hongyu Cao Xianyu Zhao Zhijian Ou RALM LRM 23 3 0 22 Jul 2024
Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach Zhouyu Jiang Mengshu Sun Lei Liang Qing Cui RALM 80 10 0 18 Jul 2024
Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems Yunxiao Shi Xing Zi Zijing Shi Haimin Zhang Qiang Wu Min Xu 39 7 0 15 Jul 2024
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers Shraman Pramanick Rama Chellappa Subhashini Venugopalan 48 13 0 12 Jul 2024
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting Zilong Wang Zifeng Wang Long Le Huaixiu Steven Zheng Swaroop Mishra ... Anush Mattapalli Ankur Taly Jingbo Shang Chen-Yu Lee Tomas Pfister RALM 80 32 0 11 Jul 2024
On Speeding Up Language Model Evaluation Jin Peng Zhou Christian K. Belardi Ruihan Wu Travis Zhang Carla P. Gomes Wen Sun Kilian Q. Weinberger 58 1 0 08 Jul 2024
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models Yuzhe Gu Ziwei Ji Wenwei Zhang Chengqi Lyu Dahua Lin Kai Chen HILM 36 5 0 05 Jul 2024
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents Petr Anokhin Nikita Semenov Artyom Sorokin Dmitry Evseev Mikhail Burtsev Evgeny Burnaev Evgeny Burnaev LLMAG RALM KELM 47 7 0 05 Jul 2024
Align and Aggregate: Compositional Reasoning with Video Alignment and Answer Aggregation for Video Question-Answering Zhaohe Liao Jiangtong Li Li Niu Liqing Zhang CoGe 37 3 0 03 Jul 2024
WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models Kangyun Ning Yisong Su Xueqiang Lv Yuanzhe Zhang Jian Liu Kang Liu Jinan Xu ELM LLMAG 36 2 0 02 Jul 2024
AI Agents That Matter Sayash Kapoor Benedikt Stroebl Zachary S. Siegel Nitya Nadgir Arvind Narayanan 49 36 0 01 Jul 2024
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks Yue Zhou Henry Peng Zou Barbara Maria Di Eugenio Yang Zhang HILM LRM 52 1 0 01 Jul 2024
Preserving Multilingual Quality While Tuning Query Encoder on English Only Oleg V. Vasilyev Randy Sawaya John Bohannon 35 1 0 01 Jul 2024
Teola: Towards End-to-End Optimization of LLM-based Applications Xin Tan Yimin Jiang Yitao Yang Hong-Yu Xu 67 5 0 29 Jun 2024
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs Ziyan Jiang Xueguang Ma Wenhu Chen RALM 55 47 0 21 Jun 2024
Sports Intelligence: Assessing the Sports Understanding Capabilities of Language Models through Question Answering from Text to Video Zhengbang Yang Haotian Xia Jingxi Li Zezhi Chen Zhuangdi Zhu Weining Shen ELM LRM 47 1 0 21 Jun 2024