Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

3 January 2025

Papers citing "Large Language Monkeys: Scaling Inference Compute with Repeated Sampling"

50 / 153 papers shown

Title
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 38 0 0 08 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Ningyu Zhang H. Chen LRM 39 0 0 06 May 2025
Improving Model Alignment Through Collective Intelligence of Open-Source LLMS Junlin Wang Roy Xie Shang Zhu Jue Wang Ben Athiwaratkun Bhuwan Dhingra S. Song Ce Zhang James Y. Zou ALM 24 0 0 05 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 60 0 0 05 May 2025
Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks Vishnu Sarukkai Zhiqiang Xie Kayvon Fatahalian LLMAG 68 0 0 01 May 2025
UserCentrix: An Agentic Memory-augmented AI Framework for Smart Spaces Alaa Saleh Sasu Tarkoma Praveen Kumar Donta Naser Hossein Motlagh Schahram Dustdar Susanna Pirttikangas Lauri Lovén 39 0 0 01 May 2025
Calibrating Translation Decoding with Quality Estimation on LLMs Di Wu Yibin Lei Christof Monz 68 0 0 26 Apr 2025
Process Reward Models That Think Muhammad Khalifa Rishabh Agarwal Lajanugen Logeswaran Jaekyeom Kim Hao Peng Moontae Lee Honglak Lee Lu Wang OffRL ALM LRM 31 1 0 23 Apr 2025
Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators Yilun Zhou Austin Xu Peifeng Wang Caiming Xiong Shafiq R. Joty ELM ALM LRM 38 1 0 21 Apr 2025
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods Junlin Wang Shang Zhu Jon Saad-Falcon Ben Athiwaratkun Qingyang Wu Jue Wang S. Song Ce Zhang Bhuwan Dhingra James Y. Zou LRM 30 1 0 18 Apr 2025
Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning J. T. Wang Jin Jiang Yang Liu M. Zhang Xunliang Cai LRM 27 0 0 18 Apr 2025
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Yang Yue Shiji Song Gao Huang ReLM LRM 40 5 0 18 Apr 2025
Sleep-time Compute: Beyond Inference Scaling at Test-time Kevin Lin Charlie Snell Y. Wang Charles Packer Sarah Wooders Ion Stoica Joseph E. Gonzalez 24 1 0 17 Apr 2025
Cost-of-Pass: An Economic Framework for Evaluating Language Models Mehmet Hamza Erol Batu El Mirac Suzgun Mert Yuksekgonul J. Zou ELM 29 0 0 17 Apr 2025
ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search Y. Zhang Tianshu Wang Sirui Chen Kun Wang Xingyu Zeng Hongyu Lin Xianpei Han Le Sun Chaochao Lu LRM 26 0 0 15 Apr 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 46 2 0 14 Apr 2025
Heimdall: test-time scaling on the generative verification Wenlei Shi Xing Jin LRM 16 0 0 14 Apr 2025
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models Junxiong Wang Wen-Ding Li Daniele Paliotta Daniel Ritter Alexander M. Rush Tri Dao LRM 21 0 0 14 Apr 2025
Reasoning Models Can Be Effective Without Thinking Wenjie Ma Jingxuan He Charlie Snell Tyler Griggs Sewon Min Matei A. Zaharia ReLM LRM 40 4 1 14 Apr 2025
Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection MingShan Liu Shi Bo Jialing Fang LRM 20 0 0 13 Apr 2025
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? Yunxiang Zhang Muhammad Khalifa Shitanshu Bhushan Grant D Murphy Lajanugen Logeswaran Jaekyeom Kim Moontae Lee Honglak Lee Lu Wang LLMAG ELM 57 0 0 13 Apr 2025
SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow Timothy Bula Saurabh Pujar Luca Buratti Mihaela A. Bornea Avirup Sil LLMAG 31 0 0 11 Apr 2025
Supervised Optimism Correction: Be Confident When LLMs Are Sure J. Zhang Rushuai Yang Shunyu Liu Ting-En Lin Fei Huang Yi Chen Y. Li Dacheng Tao OffRL 18 0 0 10 Apr 2025
Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation Alireza Salemi Chris Samarinas Hamed Zamani 19 0 0 10 Apr 2025
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill? Chenrui Fan Ming Li Lichao Sun Tianyi Zhou LRM 39 2 0 09 Apr 2025
User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems Jianling Wang Yifan Liu Yinghao Sun Xuejian Ma Yueqi Wang ... Onkar Dalal Ed Chi Lichan Hong Ningren Han Haokai Lu 19 0 0 07 Apr 2025
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models Minki Kang Jongwon Jeong Jaewoong Cho ALM LRM 33 2 0 07 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary M. Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 37 2 0 06 Apr 2025
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models Gonçalo Faria Noah A. Smith 17 0 0 04 Apr 2025
Do LLM Evaluators Prefer Themselves for a Reason? Wei-Lin Chen Zhepei Wei Xinyu Zhu Shi Feng Yu Meng ELM LRM 42 0 0 04 Apr 2025
Inference-Time Scaling for Generalist Reward Modeling Zijun Liu P. Wang R. Xu Shirong Ma Chong Ruan Peng Li Yang Janet Liu Y. Wu OffRL LRM 44 9 0 03 Apr 2025
ToolACE-R: Tool Learning with Adaptive Self-Refinement Xingshan Zeng W. Liu X. Huang Zezhong Wang Lingzhi Wang ... Y. Wang Lifeng Shang Xin Jiang Ruiming Tang Q. Liu CLL 40 0 0 02 Apr 2025
When To Solve, When To Verify: Compute-Optimal Problem Solving and Generative Verification for LLM Reasoning Nishad Singhi Hritik Bansal Arian Hosseini Aditya Grover Kai-Wei Chang Marcus Rohrbach Anna Rohrbach OffRL LRM 37 0 0 01 Apr 2025
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute Jianhao Chen Zishuo Xun Bocheng Zhou Han Qi Qiaosheng Zhang ... Wei Hu Yuzhong Qu W. Ouyang Wanli Ouyang Shuyue Hu 74 0 0 01 Apr 2025
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead Vidhisha Balachandran Jingya Chen Lingjiao Chen Shivam Garg Neel Joshi ... John Langford Besmira Nushi Vibhav Vineet Yue Wu Safoora Yousefi ReLM LRM 40 3 0 31 Mar 2025
Reasoning Beyond Limits: Advances and Open Problems for LLMs M. Ferrag Norbert Tihanyi Merouane Debbah ELM OffRL LRM AI4CE 56 2 0 26 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 68 0 0 26 Mar 2025
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique Y. Li Jiahao Xu Tian Liang Xingyu Chen Zhiwei He ... Rui Wang Z. Zhang Zhaopeng Tu Haitao Mi Dong Yu LRM 30 1 0 21 Mar 2025
Deconstructing Long Chain-of-Thought: A Structured Reasoning Optimization Framework for Long CoT Distillation Yijia Luo Yulin Song Xingyao Zhang Jiaheng Liu Weixun Wang Gengru Chen Wenbo Su Bo Zheng LRM 44 4 0 20 Mar 2025
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal Vaibhav Aggarwal Ojasv Kamal Abhinav Japesh Zhijing Jin Bernhard Schölkopf 47 1 0 18 Mar 2025
MetaScale: Test-Time Scaling with Evolving Meta-Thoughts Qin Liu Wenxuan Zhou Nan Xu James Y. Huang Fei-Yue Wang Sheng Zhang Hoifung Poon M. Chen LLMAG ReLM AI4Cl LRM 82 1 0 17 Mar 2025
ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs Pengcheng Wen Jiaming Ji Chi-Min Chan Juntao Dai Donghai Hong Yaodong Yang Sirui Han Yike Guo LLMAG LRM 68 1 0 17 Mar 2025
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection Shufan Li Konstantinos Kallidromitis Akash Gokul Arsh Koneru Yusuke Kato Kazuki Kozuka Aditya Grover VLM 54 1 0 15 Mar 2025
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling Itay Chachy Guy Yariv Sagie Benaim 62 0 0 12 Mar 2025
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms Jiaming Song Linqi Zhou DiffM 52 0 0 10 Mar 2025
RefactorBench: Evaluating Stateful Reasoning in Language Agents Through Code Dhruv Gautam Spandan Garg Jinu Jang Neel Sundaresan Roshanak Zilouchian Moghaddam LLMAG LRM 57 2 0 10 Mar 2025
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models Yuchen Yan Yongliang Shen Y. Liu Jin Jiang M. Zhang Jian Shao Yueting Zhuang LRM ReLM 48 3 0 09 Mar 2025
Soft Policy Optimization: Online Off-Policy RL for Sequence Models Taco Cohen David W. Zhang Kunhao Zheng Yunhao Tang Rémi Munos Gabriel Synnaeve OffRL 76 0 0 07 Mar 2025
Rewarding Curse: Analyze and Mitigate Reward Modeling Issues for LLM Reasoning Jiachun Li Pengfei Cao Yubo Chen Jiexin Xu Huaijun Li Xiaojian Jiang Kang Liu Jun Zhao LRM 41 0 0 07 Mar 2025
Out-of-Distribution Radar Detection in Compound Clutter and Thermal Noise through Variational Autoencoders Y A Rouzoumka E Terreaux C. Morisseau J. Ovarlez C. Ren 38 0 0 06 Mar 2025