T $^2$ : An Adaptive Test-Time Scaling Strategy for Contextual Question Answering

23 May 2025

Papers citing "T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering"

20 / 20 papers shown

Title
DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models Yi Shen Jing Zhang Jieyun Huang Shuming Shi Wenjing Zhang Jiangze Yan Rongjia Du Ning Wang Kai Wang Shiguo Lian LRM 108 42 0 06 Mar 2025
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning Wenkai Yang Shuming Ma Yankai Lin Furu Wei LRM 73 35 0 25 Feb 2025
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? Zhiyuan Zeng Qinyuan Cheng Zhangyue Yin Yunhua Zhou Xipeng Qiu LRM 126 15 0 17 Feb 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 201 278 0 03 Jan 2025
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson? Zhen Huang Haoyang Zou Xuefeng Li Yixiu Liu Yuxiang Zheng Ethan Chern Shijie Xia Yiwei Qin Weizhe Yuan Pengfei Liu VLM 92 47 0 25 Nov 2024
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B Di Zhang Xiaoshui Huang Dongzhan Zhou Yuqiang Li Wanli Ouyang LRM 75 67 0 11 Jun 2024
NERetrieve: Dataset for Next Generation Named Entity Recognition and Retrieval Uri Katz Matan Vetzler Amir D. N. Cohen Yoav Goldberg 61 10 0 22 Oct 2023
Let's Verify Step by Step Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 126 1,044 0 31 May 2023
Enhancing Retrieval-Augmented Large Language Models with Iterative Retrieval-Generation Synergy Zhihong Shao Yeyun Gong Yelong Shen Minlie Huang Nan Duan Weizhu Chen RALM LRM KELM 52 242 0 24 May 2023
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration Yang Deng Lizi Liao Liang Chen Hongru Wang Wenqiang Lei Tat-Seng Chua 101 82 0 23 May 2023
Evaluating the Performance of Large Language Models on GAOKAO Benchmark Xiaotian Zhang Chun-yan Li Yi Zong Zhengyu Ying Liang He Xipeng Qiu ALM ELM 72 103 0 21 May 2023
Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP Omar Khattab Keshav Santhanam Xiang Lisa Li David Leo Wright Hall Percy Liang Christopher Potts Matei A. Zaharia RALM KELM 66 260 0 28 Dec 2022
Interleaving Retrieval with Chain-of-Thought Reasoning for Knowledge-Intensive Multi-Step Questions H. Trivedi Niranjan Balasubramanian Tushar Khot Ashish Sabharwal KELM RALM LRM 75 441 0 20 Dec 2022
Measuring and Narrowing the Compositionality Gap in Language Models Ofir Press Muru Zhang Sewon Min Ludwig Schmidt Noah A. Smith M. Lewis ReLM KELM LRM 127 595 0 07 Oct 2022
Making Large Language Models Better Reasoners with Step-Aware Verifier Yifei Li Zeqi Lin Shizhuo Zhang Qiang Fu B. Chen Jian-Guang Lou Weizhu Chen ReLM LRM 69 219 0 06 Jun 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 489 3,486 0 21 Mar 2022
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering Zhilin Yang Peng Qi Saizheng Zhang Yoshua Bengio William W. Cohen Ruslan Salakhutdinov Christopher D. Manning RALM 128 2,577 0 25 Sep 2018
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 223 2,830 0 11 Jun 2018
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 187 2,610 0 09 May 2017
NewsQA: A Machine Comprehension Dataset Adam Trischler Tong Wang Xingdi Yuan Justin Harris Alessandro Sordoni Philip Bachman Kaheer Suleman 77 891 0 29 Nov 2016

T2^22: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering

Papers citing "T$^2$: An Adaptive Test-Time Scaling Strategy for Contextual Question Answering"

T $^2$ : An Adaptive Test-Time Scaling Strategy for Contextual Question Answering