v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 2,187 papers shown

Title
Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers Chaitanya Sharma RALM 3DV 230 5 0 28 May 2025
ChatPD: An LLM-driven Paper-Dataset Networking System Anjie Xu Ruiqing Ding Leye Wang 145 2 0 28 May 2025
Read Your Own Mind: Reasoning Helps Surface Self-Confidence Signals in LLMs Jakub Podolak Rajeev Verma ReLM LRM 243 1 0 28 May 2025
LASER: Stratified Selective Sampling for Instruction Tuning with Dedicated Scoring Strategy Paramita Mirza Lucas Weber Fabian Küch 224 0 0 28 May 2025
BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap Shengyuan Hu Neil Kale Pratiksha Thaker Yiwei Fu Steven Wu Virginia Smith MU AAML CLL 127 2 0 28 May 2025
Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2025 Yujin Choi Youngjoo Park Junyoung Byun Jaewook Lee Jinseong Park AAML 187 1 0 28 May 2025
RISE: Reasoning Enhancement via Iterative Self-Exploration in Multi-hop Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Bolei He Xinran He Mengke Chen Xianwei Xue Ying Zhu Zhenhua Ling ReLM LRM 173 1 0 28 May 2025
LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents Taro Yano Yoichi Ishibashi Masafumi Oyamada LM&Ro 274 2 0 28 May 2025
EvolveSearch: An Iterative Self-Evolving Search Agent Dingchu Zhang Yida Zhao Jialong Wu Baixuan Li Wenbiao Yin ... Yong Jiang Yufeng Li Kewei Tu Pengjun Xie Fei Huang LLMAG KELM 176 22 0 28 May 2025
RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models Dario Satriani Enzo Veltri Donatello Santoro Paolo Papotti LMTD HILM 154 0 0 27 May 2025
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA Sergey Pletenev Maria Marina Nikolay Ivanov Daria Galimzianova Nikita Krayko Mikhail Salnikov Vasily Konovalov Ilseyar Alimova Viktor Moskvoretskii 230 0 0 27 May 2025
Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAGAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xin Sun Jianan Xie Zhongqi Chen Qiang Liu Shu Wu Yuehe Chen Bowen Song Weiqiang Wang Zilei Wang Liang Wang RALM 132 3 0 27 May 2025
Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation Ekaterina Fadeeva Aleksandr Rubashevskii Roman Vashurin Shehzaad Dhuliawala Artem Shelmanov Timothy Baldwin Preslav Nakov Mrinmaya Sachan Maxim Panov HILM 250 5 0 27 May 2025
Pretrained LLMs Learn Multiple Types of Uncertainty Roi Cohen Omri Fahn Gerard de Melo 247 1 0 27 May 2025
Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities Junyan Zhang Yubo Gao Yibo Yan Jia-Chen Gu Zhaorui Hou ... Qi Zheng Song Dai Yonghua Hei Junzhuo Li Xuming Hu 183 1 0 27 May 2025
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs Zaid Alyafeai Maged S. Al-Shaibani Bernard Ghanem 225 2 0 26 May 2025
Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs Artem Vazhentsev Abdelrahman Boda Sadallah Gleb Kuzmin Ekaterina Fadeeva Ivan Lazichny ... Maxim Panov Timothy Baldwin Mrinmaya Sachan Preslav Nakov Artem Shelmanov EDL HILM 335 3 0 26 May 2025
MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning Thang Nguyen Peter Chin Yu-Wing Tai LRM 336 10 0 26 May 2025
Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation Tingjia Shen Hao Wang Chuan Qin Ruijun Sun Yang Song Defu Lian Hengshu Zhu Tong Xu 227 2 0 26 May 2025
SelfReflect: Can LLMs Communicate Their Internal Answer Distribution? Michael Kirchhof Luca Füger Adam Goliñski Eeshan Gunesh Dhekane Arno Blaas Seong Joon Oh Sinead Williamson UQLM ELM 479 3 2 26 May 2025
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining Melis Ilayda Bal Volkan Cevher Michael Muehlebach 147 1 0 26 May 2025
InFact: Informativeness Alignment for Improved LLM Factuality Roi Cohen Russa Biswas Gerard de Melo 153 1 0 26 May 2025
ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models Benjamin Clavié Florian Brand VLM CoGe 177 1 0 25 May 2025
Towards Harmonized Uncertainty Estimation for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Rui Li Jing Long Muge Qi Heming Xia Lei Sha Peiyi Wang Zhifang Sui UQCV 164 0 0 25 May 2025
Hybrid Latent Reasoning via Reinforcement Learning Zhenrui Yue Sara Szymkuć Huimin Zeng Honglei Zhuang Zhen Qin Chang Jo Kim Lanyu Shang Jiawei Han Dong Wang OffRL BDL LRM 249 4 0 24 May 2025
AI-Driven Climate Policy Scenario Generation for Sub-Saharan Africa Rafiu Adekoya Badekale Adewale Akinfaderin 185 0 0 24 May 2025
Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees Sangwoo Park Matteo Zecchin Osvaldo Simeone 154 2 0 24 May 2025
Removal of Hallucination on Hallucination: Debate-Augmented RAGAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Wentao Hu Wengyu Zhang Yiyang Jiang C. Zhang Xiaoyong Wei Qing Li 152 7 0 24 May 2025
GainRAG: Preference Alignment in Retrieval-Augmented Generation through Gain Signal SynthesisAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Yi Jiang Sendong Zhao Jianbo Li Haochun Wang Bing Qin RALM 302 4 0 24 May 2025
Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs Hexiang Tan Fei Sun Sha Liu Du Su Qi Cao ... Jingang Wang Xunliang Cai Yuanzhuo Wang Huawei Shen Xueqi Cheng HILM 424 1 0 23 May 2025
T $^2$ : An Adaptive Test-Time Scaling Strategy for Contextual Question Answering Zhengyi Zhao Shubo Zhang Zezhong Wang Huimin Wang Yutian Zhao Bin Liang Yefeng Zheng Binyang Li Kam-Fai Wong X. Wu LRM 237 1 0 23 May 2025
LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization Qi Zhang Shouqing Yang Lirong Gao Hao Chen Xiaomeng Hu ... Jiexiang Wang Sheng Guo Bo Zheng Haobo Wang Junbo Zhao LRM 159 3 0 23 May 2025
HASH-RAG: Bridging Deep Hashing with Retriever for Efficient, Fine Retrieval and Augmented GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Jinyu Guo Xunlei Chen Qiyang Xia Zhaokun Wang Jie Ou Libo Qin Shunyu Yao Wenhong Tian 441 2 0 22 May 2025
CAIN: Hijacking LLM-Humans Conversations via Malicious System Prompts Viet Pham Thai Le SILM 128 0 0 22 May 2025
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning Shuzheng Si Haozhe Zhao Cheng Gao Yuzhuo Bai Zhitong Wang ... Gang Chen Fanchao Qi Minjia Zhang Baobao Chang Maosong Sun SyDa HILM 227 3 0 22 May 2025
UNCLE: Benchmarking Uncertainty Expressions in Long-Form Generation Ruihan Yang Caiqi Zhang Zhisong Zhang Xinting Huang Dong Yu Nigel Collier Deqing Yang ELM 228 4 0 22 May 2025
ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts Dongwon Noh Donghyeok Koh Junghun Yuk Gyuwan Kim Jaeyong Lee Kyungtae Lim Cheoneum Park ELM 242 0 0 22 May 2025
Small-to-Large Generalization: Data Influences Models Consistently Across Scale Alaa Khaddaj Logan Engstrom Aleksander Madry TDI AI4CE 221 0 0 22 May 2025
Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty Peilin Wu Mian Zhang Xinlu Zhang Xinya Du Zhiyu Zoey Chen 183 5 0 22 May 2025
CUB: Benchmarking Context Utilisation Techniques for Language Models Lovisa Hagström Youna Kim Haeun Yu Sang-goo Lee Richard Johansson Hyunsoo Cho Isabelle Augenstein 202 2 0 22 May 2025
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction Yuqing Yang Robin Jia KELM LRM 308 2 0 22 May 2025
Social Bias in Popular Question-Answering Benchmarks Angelie Kraft Judith Simon Sonja Schimmler 338 3 0 21 May 2025
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation Yunjia Xi Jianghao Lin Menghui Zhu Yongzhao Xiao Zhuoying Ou ... Weiwen Liu Yasheng Wang Ruiming Tang Weinan Zhang Yong Yu 286 7 0 21 May 2025
ConvSearch-R1: Enhancing Query Reformulation for Conversational Search with Reasoning via Reinforcement Learning Changtai Zhu Siyin Wang Ruijun Feng Kai Song Xipeng Qiu LRM 255 5 0 21 May 2025
Do RAG Systems Really Suffer From Positional Bias? Florin Cuconasu Simone Filice Guy Horowitz Y. Maarek Fabrizio Silvestri RALM 217 3 0 21 May 2025
VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models Heyang Liu Yuhao Wang Ziyang Cheng Ronghua Wu Qunshan Gu Yanfeng Wang Yu Wang AuLLM 204 8 0 21 May 2025
Revealing Language Model Trajectories via Kullback-Leibler Divergence Ryo Kishino Yusuke Takase Momose Oyama Hiroaki Yamagiwa Hidetoshi Shimodaira 236 0 0 21 May 2025
The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation Patrick Kahardipraja Reduan Achtibat Thomas Wiegand Wojciech Samek Sebastian Lapuschkin 297 4 0 21 May 2025
RePPL: Recalibrating Perplexity by Uncertainty in Semantic Propagation and Language Generation for Explainable QA Hallucination Detection Yiming Huang Junyan Zhang Zihao Wang Biquan Bie Xuming Hu Yi R. Fung 263 0 0 21 May 2025
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought Tencent Hunyuan Team Ao Liu Botong Zhou Can Xu Chayse Zhou ... Bingxin Qu Bolin Ni Boyu Wu Chen Li Cheng-peng Jiang MoE LRM AI4CE 379 13 0 21 May 2025