v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 2,194 papers shown

Title
ESI: Epistemic Uncertainty Quantification via Semantic-preserving Intervention for Large Language Models Mingda Li Xinyu Li Weinan Zhang Longxuan Ma 108 0 0 15 Oct 2025
Document Intelligence in the Era of Large Language Models: A Survey Weishi Wang Hengchang Hu Zhijie Zhang Zhaochen Li Hongxin Shao Daniel Dahlmeier AI4TS 152 0 0 15 Oct 2025
Teaching Language Models to Faithfully Express their Uncertainty Bryan Eikema Evgenia Ilia José G. C. de Souza Chrysoula Zerva Wilker Aziz HILM 132 0 0 14 Oct 2025
Who's Asking? Evaluating LLM Robustness to Inquiry Personas in Factual Question Answering Nil-Jana Akpinar Chia-Jung Lee Vanessa Murdock Pietro Perona 100 0 0 14 Oct 2025
Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions Sungmin Kang Yavuz Faruk Bakman D. Yaldiz Baturalp Buyukates Salman Avestimehr HILM 186 3 0 14 Oct 2025
The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers Saad Obaid ul Islam Anne Lauscher Goran Glavaš HILM 170 0 0 13 Oct 2025
PoU: Proof-of-Use to Counter Tool-Call Hacking in DeepResearch Agents Shengjie Ma Chenlong Deng Jiaxin Mao J. Huang Teng Wang Junjie Wu Changwang Zhang Jun Wang 76 1 0 13 Oct 2025
Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models Yusheng Song Lirong Qiu Xi Zhang Zhihao Tang HILM LRM 115 0 0 13 Oct 2025
APLOT: Robust Reward Modeling via Adaptive Preference Learning with Optimal Transport Z. Li Yuege Feng Dandan Guo Jinpeng Hu Anningzhe Gao Xiang Wan 108 0 0 13 Oct 2025
Bolster Hallucination Detection via Prompt-Guided Data Augmentation Wenyun Li Zheng Zhang Dongmei Jiang Xiangyuan Lan HILM 172 0 0 13 Oct 2025
ADVICE: Answer-Dependent Verbalized Confidence Estimation Ki Jung Seo Sehun Lim Taeuk Kim 28 0 0 13 Oct 2025
LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation Hengran Zhang Keping Bi Jiafeng Guo Jiaming Zhang Shuaiqiang Wang Dawei Yin Xueqi Cheng RALM 120 0 0 13 Oct 2025
Harnessing Consistency for Robust Test-Time LLM Ensemble Zhichen Zeng Qi Yu Xiao Lin Ruizhong Qiu Xuying Ning Tianxin Wei Yuchen Yan Jingrui He Hanghang Tong 88 0 0 12 Oct 2025
RECON: Reasoning with Condensation for Efficient Retrieval-Augmented Generation Zhichao Xu Minheng Wang Y. X. R. Wang Wenqian Ye Yuntao Du Yunpu Ma Yijun Tian OffRL RALM 170 0 0 12 Oct 2025
Trace Length is a Simple Uncertainty Signal in Reasoning Models Siddartha Devic Charlotte Peale Arwen Bradley Sinead Williamson Preetum Nakkiran Aravind Gollakota LRM 124 0 0 12 Oct 2025
Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning Shu Zhao Tan Yu Anbang Xu ReLM RALM LRM 91 3 0 11 Oct 2025
Attention to Non-Adopters Kaitlyn Zhou Kristina Gligorić Myra Cheng Michelle S. Lam Vyoma Raman Boluwatife Aminu Caeley Woo Michael Brockman Hannah Cha Dan Jurafsky 80 1 0 10 Oct 2025
SIMBA UQ: Similarity-Based Aggregation for Uncertainty Quantification in Large Language Models D. Bhattacharjya Balaji Ganesan Junkyu Lee Radu Marinescu Katsiaryna Mirylenka Michael R. Glass Xiao Shou 109 0 0 10 Oct 2025
DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning Chenyang Gu Yewen Pu Bruce Yang Xiaofan Li Huan Gao 180 0 0 10 Oct 2025
Quality Estimation Reranking for Document-Level Translation Krzysztof Mrozinski Minji Kang Ahmed Khota Vincent Michael Sutanto Giovanni Gatti De Giacomo 92 0 0 10 Oct 2025
Mitigating Judgment Preference Bias in Large Language Models through Group-Based Polling Shuliang Liu Zhipeng Xu Zhenghao Liu Y. Yan Minghe Yu Yu Gu Chong Chen Huiyuan Xie Ge Yu 99 0 0 09 Oct 2025
HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation Peilin Wu Mian Zhang Kun Wan Wentian Zhao Kaiyu He Xinya Du Zhiyu Zoey Chen 72 0 0 09 Oct 2025
Revisiting Hallucination Detection with Effective Rank-based Uncertainty Rui Wang Zeming Wei Guanzhang Yue Meng Sun UQCV HILM 199 0 0 09 Oct 2025
A $^2$ Search: Ambiguity-Aware Question Answering with Reinforcement Learning Fengji Zhang Xinyao Niu Chengyang Ying Guancheng Lin Zhongkai Hao Zhou Fan Chengen Huang J. Keung B. Chen Junyang Lin 72 0 0 09 Oct 2025
PrismGS: Physically-Grounded Anti-Aliasing for High-Fidelity Large-Scale 3D Gaussian Splatting Houqiang Zhong Zhenglong Wu Sihua Fu Zihan Zheng Xin Jin X. Zhang Li Song Q. Hu 3DGS 104 4 0 09 Oct 2025
Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window Qiaoyu Tang Hao Xiang Le Yu Bowen Yu Yaojie Lu ... Shixuan Liu Zhenru Zhang Jianhong Tu Hongyu Lin Junyang Lin LLMAG RALM LRM 106 2 0 09 Oct 2025
Understanding DeepResearch via Reports Tianyu Fan Xinyao Niu Yuxiang Zheng Fengji Zhang Chengen Huang B. Chen Junyang Lin Chao Huang LLMAG 97 0 0 09 Oct 2025
Tool-Augmented Policy Optimization: Synergizing Reasoning and Adaptive Tool Use with Reinforcement Learning Wenxun Wu Yuanyang Li Guhan Chen Linyue Wang Hongyang Chen OffRL LRM 47 1 0 08 Oct 2025
Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts Yeskendir Koishekenov Aldo Lipani Nicola Cancedda LRM 106 2 0 08 Oct 2025
Pragyaan: Designing and Curating High-Quality Cultural Post-Training Datasets for Indian Languages Neel Prabhanjan Rachamalla Aravind Konakalla Gautam Rajeev Ashish Kulkarni Chandra Khatri Shubham Agarwal 124 0 0 08 Oct 2025
Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models Yuntao Gui James Cheng AI4TS KELM LRM 150 1 0 08 Oct 2025
Multi-hop Deep Joint Source-Channel Coding with Deep Hash Distillation for Semantically Aligned Image Retrieval Didrik Bergström Deniz Gündüz Onur Günlü 106 1 0 08 Oct 2025
Native Hybrid Attention for Efficient Sequence Modeling Jusen Du Jiaxi Hu Tao Zhang Weigao Sun Yu Cheng 164 2 0 08 Oct 2025
Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them Jiahe Jin Abhijay Paladugu Chenyan Xiong AIFin LRM 143 1 0 08 Oct 2025
Higher-Order Feature Attribution: Bridging Statistics, Explainable AI, and Topological Signal Processing Kurt Butler Guanchao Feng Petar M. Djurić FAtt 168 0 0 07 Oct 2025
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents Mingkang Zhu Xi Chen Bei Yu Hengshuang Zhao Jiaya Jia OffRL 45 0 0 07 Oct 2025
GRACE: Generative Representation Learning via Contrastive Policy Optimization Jiashuo Sun Shixuan Liu Zhaochen Su Xianrui Zhong Pengcheng Jiang Sara Szymkuć Peiran Li Weijia Shi Jiawei Han 86 0 0 06 Oct 2025
Finish First, Perfect Later: Test-Time Token-Level Cross-Validation for Diffusion Large Language Models Runchu Tian Junxia Cui Xueqiang Xu Feng Yao Jingbo Shang 117 1 0 06 Oct 2025
AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering Zheyuan Zhang Kaiwen Shi Zhengqing Yuan Zehong Wang Tianyi Ma Keerthiram Murugesan Vincent Galassi Chuxu Zhang Yanfang Ye LLMAG 137 2 0 06 Oct 2025
Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents Yiding Wang Zhepei Wei Xinyu Zhu Yu Meng 132 1 0 06 Oct 2025
On the Role of Unobserved Sequences on Sample-based Uncertainty Quantification for LLMs Lucie Kunitomo-Jacquin Edison Marrese-Taylor Ken Fukuda 64 0 0 06 Oct 2025
MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning Guoxin Chen Zile Qiao Wenqing Wang Donglei Yu Xuanzhong Chen ... Yong Jiang Penguin Xie Wayne Xin Zhao Ruihua Song Fei Huang LLMAG LRM 98 0 0 06 Oct 2025
LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization Jiarui Liu Jivitesh Jain Mona T. Diab Nishant Subramani 125 0 0 05 Oct 2025
Equipping Retrieval-Augmented Large Language Models with Document Structure Awareness Lingnan Xu Chong Feng Kaiyuan Zhang Liu Zhengyong Wenqiang Xu Fanqing Meng RALM 105 0 0 05 Oct 2025
Improving Consistency in Retrieval-Augmented Systems with Group Similarity Rewards Faisal Hamman Chenyang Zhu Anoop Kumar Xujun Peng Sanghamitra Dutta Daben Liu Alfy Samuel 97 1 0 05 Oct 2025
What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models Zicong He Boxuan Zhang Weihao Liu Ruixiang Tang Lu Cheng ELM 104 1 0 05 Oct 2025
Large Language Models Hallucination: A Comprehensive Survey Aisha Alansari Hamzah Luqman HILM LRM 429 1 0 05 Oct 2025
Less LLM, More Documents: Searching for Improved RAG Jingjie Ning Yibo Kong Yunfan Long Jamie Callan 126 0 0 03 Oct 2025
BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks Sagnik Anupam Davis Brown Shuo Li Eric Wong Hamed Hassani Osbert Bastani LLMAG ELM 167 1 0 02 Oct 2025
Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage Siddhant Arora Haidar Khan Kai Sun Xin Luna Dong Sajal Choudhary ... Anuj Kumar Ahmed Aly Yue Liu Florian Metze Zhaojiang Lin 112 1 0 02 Oct 2025