v1v2 (latest)

Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers

26 November 2024

Papers citing "Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers"

29 / 29 papers shown

Title
Think in Parallel, Answer as One: Logit Averaging for Open-Ended Reasoning Haonan Wang Chao Du Kenji Kawaguchi Tianyu Pang MoMe ReLM LRM 391 0 0 02 Dec 2025
When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers Jack Lu Ryan Teehan Jinran Jin Mengye Ren LRM 124 0 0 02 Dec 2025
Is the Cure Still Worse Than the Disease? Test Overfitting by LLMs in Automated Program Repair Toufique Ahmed Jatin Ganhotra Avraham Shinnar Martin Hirzel 51 0 0 20 Nov 2025
Neural Diversity Regularizes Hallucinations in Language Models Kushal Chakrabarti Nirmal Balachundhar 120 0 0 23 Oct 2025
Best-of-Majority: Minimax-Optimal Strategy for Pass@ $k$ Inference Scaling Qiwei Di Kaixuan Ji Xuheng Li Heyang Zhao Quanquan Gu 100 0 0 03 Oct 2025
Making, not Taking, the Best of N Ammar Khairi Daniel D'souza Marzieh Fadaee Julia Kreutzer MoMe 124 0 0 01 Oct 2025
From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs Haonan Wang Weida Liang Zihang Fu Nie Zheng Y. Zhang ... Tongyao Zhu Hao Jiang Chuang Li Jiaying Wu Kenji Kawaguchi ReLM LRM 132 0 0 27 Sep 2025
Variation in Verification: Understanding Verification Dynamics in Large Language Models Yefan Zhou Austin Xu Yilun Zhou Janvijay Singh Jiang Gui Shafiq Joty LRM 176 3 0 22 Sep 2025
Instance-Wise Adaptive Sampling for Dataset Construction in Approximating Inverse Problem Solutions Jiequn Han Kui Ren Nathan Soedjak 126 0 0 04 Sep 2025
Trust but Verify! A Survey on Verification Design for Test-time Scaling Venktesh V Mandeep Rathee Avishek Anand LRM 187 1 0 20 Aug 2025
AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks Fali Wang Hui Liu Zhenwei Dai Jingying Zeng Zhiwei Zhang ... Chen Luo Zhen Li Xianfeng Tang Qi He Suhang Wang LLMAG 203 7 0 26 Jul 2025
Establishing Best Practices for Building Rigorous Agentic Benchmarks Yuxuan Zhu Tengjun Jin Yada Pruksachatkun Andy K. Zhang Zhifei Li ... Sarah Schwettmann Matei A. Zaharia Ion Stoica Percy Liang Daniel Kang 605 8 0 03 Jul 2025
Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs Hen Davidov Gilad Freidkin Shai Feldman Yaniv Romano 321 0 0 16 Jun 2025
Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation Giacomo Baldan Qiang Liu Alberto Guardone Nils Thuerey AI4CE 153 6 0 10 Jun 2025
Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning Ho-Lam Chung Teng-Yun Hsiao Hsiao-Ying Huang Chunerh Cho Jian-Ren Lin Zhang Ziwei Yun-Nung Chen LRM 330 4 0 05 Jun 2025
Incentivizing LLMs to Self-Verify Their Answers Fuxiang Zhang Jiacheng Xu Chaojie Wang Ce Cui Yang Liu Rui Hu ReLM LRM 409 1 0 02 Jun 2025
Pretraining Language Models to Ponder in Continuous Space Boyi Zeng Shixiang Song Siyuan Huang Yixuan Wang He Li Ziwei He Xinbing Wang Zhiyu Li Zhouhan Lin LRM 341 11 0 27 May 2025
Dynamic Risk Assessments for Offensive Cybersecurity Agents Boyi Wei Benedikt Stroebl Jiacen Xu Joie Zhang Zhou Li Peter Henderson 530 4 0 23 May 2025
Parallel Scaling Law for Language Models Mouxiang Chen Binyuan Hui Zeyu Cui Jiaxi Yang Dayiheng Liu Jianling Sun Junyang Lin Zhongxin Liu MoE LRM 317 20 0 15 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Zijun Chen Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 284 1 0 07 May 2025
Why Do Multi-Agent LLM Systems Fail? Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A Agrawal Bhavya Chopra ... Dan Klein Kannan Ramchandran Matei A. Zaharia Joseph E. Gonzalez Ion Stoica LLMAG 595 165 0 17 Mar 2025
Better Process Supervision with Bi-directional Rewarding SignalsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Wenxiang Chen Wei He Zhiheng Xi Honglin Guo Boyang Hong ... Nijun Li Tao Gui Yun Li Tao Gui Qi Zhang LRM 303 9 0 06 Mar 2025
LangProBe: a Language Programs Benchmark Shangyin Tan Lakshya A Agrawal Arnav Singhvi Liheng Lai Michael J Ryan Dan Klein Omar Khattab Koushik Sen Matei A. Zaharia 256 3 0 27 Feb 2025
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing Juntai Cao Xiang Zhang Raymond Li Chuyuan Li Shafiq Joty Shafiq Joty Giuseppe Carenini 427 10 0 27 Feb 2025
Beyond Release: Access Considerations for Generative AI Systems Irene Solaiman Rishi Bommasani Dan Hendrycks Ariel Herbert-Voss Yacine Jernite Aviya Skowron Andrew Trask 504 3 0 23 Feb 2025
S*: Test Time Scaling for Code Generation Dacheng Li Shiyi Cao Chengkun Cao Xiuyu Li Shangyin Tan Kurt Keutzer Jiarong Xing Alfons Kemper Ion Stoica LRM VLM 253 51 0 21 Feb 2025
Examining False Positives under Inference Scaling for Mathematical Reasoning Yu Guang Wang Nan Yang Liang Wang Furu Wei Fuli Feng LRM 387 8 0 10 Feb 2025
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling Bradley Brown Jordan Juravsky Ryan Ehrlich Ronald Clark Quoc V. Le Christopher Ré Azalia Mirhoseini ALM LRM 896 562 0 03 Jan 2025
Drowning in Documents: Consequences of Scaling Reranker Inference Mathew Jacob Erik Lindgren Matei A. Zaharia Michael Carbin Omar Khattab Andrew Drozdov OffRL 527 7 0 18 Nov 2024

All Papers

Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers

Papers citing "Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers"