Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents

Researchy Questions: A Dataset of Multi-Perspective, Decompositional Questions for LLM Web Agents

27 February 2024

Ahmed Hassan Awadallah

Jennifer Neville

Papers citing "Researchy Questions: A Dataset of Multi-Perspective, Decompositional Questions for LLM Web Agents"

13 / 13 papers shown

Title
Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses Sahel Sharifymoghaddam Shivani Upadhyay Nandan Thakur Ronak Pradeep Jimmy Lin RALM 27 0 0 28 Apr 2025
Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges Nandan Thakur Ronak Pradeep Shivani Upadhyay Daniel Fernando Campos Nick Craswell Jimmy Lin ELM 35 0 0 21 Apr 2025
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents Nandan Thakur Jimmy J. Lin Sam Havens Michael Carbin Omar Khattab Andrew Drozdov 36 2 0 17 Apr 2025
Document Quality Scoring for Web Crawling Francesca Pezzuti Ariane Mueller Sean MacAvaney Nicola Tonellotto 27 0 0 15 Apr 2025
Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage Kaige Xie Philippe Laban Prafulla Kumar Choubey Caiming Xiong C. Wu 29 1 0 20 Oct 2024
Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track Ronak Pradeep Nandan Thakur Sahel Sharifymoghaddam Eric Zhang Ryan Nguyen Daniel Campos Nick Craswell Jimmy Lin 38 11 0 24 Jun 2024
Evaluation of Retrieval-Augmented Generation: A Survey Hao Yu Aoran Gan Kai Zhang Shiwei Tong Qi Liu Zhaofeng Liu 3DV 57 79 0 13 May 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 235 294 0 18 Jan 2024
Don't Make Your LLM an Evaluation Benchmark Cheater Kun Zhou Yutao Zhu Zhipeng Chen Wentong Chen Wayne Xin Zhao Xu Chen Yankai Lin Ji-Rong Wen Jiawei Han ELM 105 136 0 03 Nov 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 233 2,470 0 06 Oct 2022
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua-Hong Wu Haifeng Wang Ji-Rong Wen 124 247 0 14 Oct 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 245 1,986 0 31 Dec 2020
AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization Sayali Kulkarni Sheide Chammas Wan Zhu Fei Sha Eugene Ie RALM 54 52 0 23 Oct 2020