v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 2,194 papers shown

Title
Value-Guided KV Compression for LLMs via Approximated CUR Decomposition Ayan Sengupta Siddhant Chaudhary Tanmoy Chakraborty MQ 100 1 0 18 Sep 2025
Sparse Neurons Carry Strong Signals of Question Ambiguity in LLMs Zhuoxuan Zhang Jinhao Duan Edward Kim Kaidi Xu 92 0 0 17 Sep 2025
Synthetic bootstrapped pretraining Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong-Jun Wang Ruoming Pang SyDa 163 0 0 17 Sep 2025
Geometric Uncertainty for Detecting and Correcting Hallucinations in LLMs Edward Phillips Sean Wu Soheila Molaei Danielle Belgrave A. Thakur David Clifton HILM 156 1 0 17 Sep 2025
InfoGain-RAG: Boosting Retrieval-Augmented Generation via Document Information Gain-based Reranking and Filtering Zihan Wang Zihan Liang Zhou Shao Yufei Ma Huangyu Dai Ben Chen Lingtao Mao Chenyi Lei Yuqing Ding Han Li RALM 80 0 0 16 Sep 2025
LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations Robin Vujanic Thomas Rueckstiess 92 2 0 16 Sep 2025
Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings Shiyu Li Yang Tang Ruijie Liu Shi-Zhe Chen Xi Chen 69 1 0 16 Sep 2025
MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables Matteo Marcuzzo A. Zangari A. Albarelli Jose Camacho-Collados Mohammad Taher Pilehvar 172 2 0 15 Sep 2025
HARP: Hallucination Detection via Reasoning Subspace Projection Junjie Hu Gang Tu ShengYu Cheng Jinxin Li Jinting Wang Rui Chen Zhilong Zhou Dongbo Shan 118 0 0 15 Sep 2025
Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction Yijun Liu Yixuan Wang Yuzhuang Xu Shiyu Ji Yang Xu Qingfu Zhu Wanxiang Che 128 0 0 13 Sep 2025
HalluField: Detecting LLM Hallucinations via Field-Theoretic Modeling Minh Nhat Vu Brian K. Tran Syed A. Shah Geigh Zollicoffer N. Hoang-Xuan Manish Bhattarai 120 0 0 12 Sep 2025
Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs Mobina Pournemat Keivan Rezaei Gaurang Sriramanan Arman Zarei Jiaxiang Fu Yang Wang Hamid Eghbalzadeh Soheil Feizi LRM 155 1 0 12 Sep 2025
No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes Iván Vicente Moreno Cencerrado Arnau Padrés Masdemont Anton Gonzalvez Hawthorne David Demitri Africa Lorenzo Pacchiardi ELM 131 2 0 12 Sep 2025
A Survey on Retrieval And Structuring Augmented Generation with Large Language Models Pengcheng Jiang Siru Ouyang Yizhu Jiao Ming Zhong Runchu Tian Jiawei Han RALM KELM 156 3 0 12 Sep 2025
EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li 68 2 0 11 Sep 2025
Steering MoE LLMs via Expert (De)Activation Mohsen Fayyaz Ali Modarressi Hanieh Deilamsalehy Franck Dernoncourt Ryan Rossi Trung Bui Hinrich Schutze Nanyun Peng MoE LLMSV 168 3 0 11 Sep 2025
Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents Jiawei Wang Jiacai Liu Y. Fu Y. Li Xintao Wang Yuan Lin Yu Yue L. Zhang Y. X. R. Wang Ke Wang 112 8 0 11 Sep 2025
GrACE: A Generative Approach to Better Confidence Elicitation in Large Language Models Zhaohan Zhang Ziquan Liu Ioannis Patras 136 2 0 11 Sep 2025
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning Zhiheng Xi J. Huang Chenyang Liao Baodai Huang Honglin Guo ... Tao Gui Zuxuan Wu Qi Zhang Xuanjing Huang Yu-Gang Jiang 116 12 0 10 Sep 2025
A Comprehensive Review of Reinforcement Learning for Autonomous Driving in the CARLA Simulator Elahe Delavari Feeza Khan Khanzada Jaerock Kwon 100 2 0 10 Sep 2025
SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge Lukas Haas Gal Yona Giovanni DÁntonio Sasha Goldshtein Dipanjan Das HILM ALM 49 5 0 09 Sep 2025
GENUINE: Graph Enhanced Multi-level Uncertainty Estimation for Large Language Models Tuo Wang Adithya Kulkarni Tyler Cody Peter A. Beling Yujun Yan Dawei Zhou 73 0 0 09 Sep 2025
Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations Sihyun Park 60 0 0 09 Sep 2025
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers Praneet Suresh Jack Stanley Sonia Joseph Luca Scimeca Danilo Bzdok 204 1 0 08 Sep 2025
Reinforcement Learning Foundations for Deep Research Systems: A Survey Wenjun Li Z. Chen Jingru Lin Hannan Cao Wei Han ... Zhi Zhang Kuicai Dong Dexun Li Chen Zhang Yong Liu OffRL 183 4 0 08 Sep 2025
DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling Hao Sun Zile Qiao Bo Wang Guoxin Chen Yingyan Hou Yong Jiang Pengjun Xie Fei Huang Yan Zhang 104 1 0 07 Sep 2025
MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages Dan Saattrup Smart RALM 317 1 0 04 Sep 2025
A Comprehensive Survey on Trustworthiness in Reasoning with Large Language Models Yanbo Wang Yongcan Yu Jian Liang Ran He HILM LRM 193 4 0 04 Sep 2025
Cross-Layer Attention Probing for Fine-Grained Hallucination Detection Malavika Suresh Rahaf Aljundi Ikechukwu Nkisi-Orji Nirmalie Wiratunga HILM 149 0 0 04 Sep 2025
Training LLMs to be Better Text Embedders through Bidirectional Reconstruction Chang Su Dengliang Shi Siyuan Huang Jintao Du Changhua Meng Yu-Jie Cheng Weiqiang Wang Zhouhan Lin 116 0 0 03 Sep 2025
Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size? Jaime Collado-Montañez L. Alfonso Ureña-López Arturo Montejo-Ráez HILM ELM LRM 76 0 0 02 Sep 2025
Implicit Reasoning in Large Language Models: A Comprehensive Survey Jindong Li Yali Fu Li Fan Jiahong Liu Yao Shu Chengwei Qin Menglin Yang Irwin King Rex Ying OffRL LRM AI4CE 172 10 0 02 Sep 2025
DrDiff: Dynamic Routing Diffusion with Hierarchical Attention for Breaking the Efficiency-Quality Trade-off Jusheng Zhang Yijia Fan Kaitong Cai Zimeng Huang Xiaofei Sun Jian Wang Chengpei Tang Keze Wang DiffM 88 17 0 02 Sep 2025
Unlearning That Lasts: Utility-Preserving, Robust, and Almost Irreversible Forgetting in LLMs Naman D. Singh Maximilian Müller Francesco Croce Matthias Hein MU KELM CLL 183 4 0 02 Sep 2025
Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate Charles Moslonka Hicham Randrianarivo Arthur Garnier Emmanuel Malherbe HILM 153 0 0 01 Sep 2025
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use Dongfu Jiang Yi Lu Zhuofeng Li Zhiheng Lyu Ping Nie ... Hui Chen Kai Zou Chao Du Tianyu Pang Wenhu Chen 197 21 0 01 Sep 2025
Towards Open-World Retrieval-Augmented Generation on Knowledge Graph: A Multi-Agent Collaboration Framework Jiasheng Xu Mingda Li Yongqiang Tang Peijie Wang Wensheng Zhang RALM 106 0 0 01 Sep 2025
EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes Yuqin Dai Guoqing Wang Yuan Wang Kairan Dou Kaichen Zhou ... Can Yi Changhua Meng Yuchen Zhou Yongliang Shen Shuai Lu RALM 206 3 0 31 Aug 2025
Router Upcycling: Leveraging Mixture-of-Routers in Mixture-of-Experts Upcycling Junfeng Ran Guangxiang Zhao Yuhan Wu Dawei Zhu Longyun Wu Yikai Zhao Tong Yang Lin Sun Xiangzheng Zhang Sujian Li MoE MoMe 80 0 0 31 Aug 2025
Open Data Synthesis For Deep Research Ziyi Xia Kun Luo Hongjin Qian Zheng Liu OffRL RALM LRM 206 3 0 30 Aug 2025
AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning Lang Mei Zhihan Yang Chong Chen KELM OffRL 208 2 0 28 Aug 2025
AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving Shaoting Feng Hanchen Li Kuntai Du Zhuohan Gu Yuhan Liu ... Siddhant Ray Samuel Shen Yihua Cheng Ganesh Ananthanarayanan Junchen Jiang 120 1 0 28 Aug 2025
Decoding Memories: An Efficient Pipeline for Self-Consistency Hallucination Detection Weizhi Gao Xiaorui Liu Feiyi Wang Dan Lu Junqi Yin HILM 76 0 0 28 Aug 2025
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis Liana Patel Negar Arabzadeh Harshit Gupta Ankita Sundar Ion Stoica Matei A. Zaharia Carlos Guestrin ELM 140 4 0 27 Aug 2025
Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities Rikuto Kotoge Mai Nishimura Jiaxin Ma LM&Ro LRM 141 0 0 27 Aug 2025
Diverse And Private Synthetic Datasets Generation for RAG evaluation: A multi-agent framework Ilias Driouich Hongliu Cao Eoin Thomas 64 1 0 26 Aug 2025
Beyond Benchmark: LLMs Evaluation with an Anthropomorphic and Value-oriented Roadmap Jun Wang Ninglun Gu Kailai Zhang Zijiao Zhang Yelun Bao ... Liwei Liu Yihuan Liu Pengyong Li Gary G. Yen Junchi Yan ALM ELM 216 0 0 26 Aug 2025
ConfTuner: Training Large Language Models to Express Their Confidence Verbally Yibo Li Miao Xiong Jiaying Wu Bryan Hooi 164 7 0 26 Aug 2025
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning Zihao Huang Yu Bao Qiyang Min S. Chen Ran Guo ... Defa Zhu Yutao Zeng Banggu Wu Xun Zhou Siyuan Qiao MoE 136 2 0 26 Aug 2025
Real-Time Detection of Hallucinated Entities in Long-Form Generation Oscar Obeso Andy Arditi Javier Ferrando Joshua Freeman Cameron Holmes Neel Nanda HILM 153 5 0 26 Aug 2025