Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

3 January 2025

Papers citing "Large Language Monkeys: Scaling Inference Compute with Repeated Sampling"

50 / 153 papers shown

Title
Better Process Supervision with Bi-directional Rewarding Signals Wenxiang Chen Wei He Zhiheng Xi Honglin Guo Boyang Hong ... Nijun Li Tao Gui Yun Li Qi Zhang Xuanjing Huang LRM 40 2 0 06 Mar 2025
AOLO: Analysis and Optimization For Low-Carbon Oriented Wireless Large Language Model Services Xiaoqi Wang Hongyang Du Yuehong Gao Dong In Kim 61 0 0 06 Mar 2025
Position: Ensuring mutual privacy is necessary for effective external evaluation of proprietary AI systems Ben Bucknall Robert F. Trager Michael A. Osborne 70 0 0 03 Mar 2025
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs Kanishk Gandhi Ayush Chakravarthy Anikait Singh Nathan Lile Noah D. Goodman ReLM LRM 80 27 0 03 Mar 2025
How Well do LLMs Compress Their Own Chain-of-Thought? A Token Complexity Approach Ayeong Lee Ethan Che Tianyi Peng LRM 34 10 0 03 Mar 2025
Multi-Turn Code Generation Through Single-Step Rewards A. Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M. Rush Wenting Zhao Sanjiban Choudhury LRM 42 1 0 27 Feb 2025
Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners Daniele Paliotta Junxiong Wang Matteo Pagliardini Kevin Y. Li Aviv Bick J. Zico Kolter Albert Gu F. Fleuret Tri Dao ReLM LRM 43 7 0 27 Feb 2025
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers Kechen Li Wenqi Zhu Coralia Cartis Tianbo Ji Shiwei Liu ReLM LRM 39 0 0 27 Feb 2025
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing Juntai Cao Xiang Zhang Raymond Li Chuyuan Li Shafiq R. Joty Giuseppe Carenini 54 1 0 27 Feb 2025
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems Hao Peng Y. Qi Xiaozhi Wang Zijun Yao Bin Xu Lei Hou Juanzi Li ALM LRM 52 4 0 26 Feb 2025
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning Wenkai Yang Shuming Ma Yankai Lin Furu Wei LRM 40 20 0 25 Feb 2025
Forecasting Rare Language Model Behaviors Erik Jones Meg Tong Jesse Mu Mohammed Mahfoud Jan Leike Roger C. Grosse Jared Kaplan William Fithian Ethan Perez Mrinank Sharma 33 2 0 24 Feb 2025
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? Zhenheng Tang Xiang Liu Qian Wang Peijie Dong Bingsheng He Xiaowen Chu Bo Li LRM 39 1 0 24 Feb 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 53 1 0 23 Feb 2025
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving Mihir Parmar Xin Liu Palash Goyal Yanfei Chen L. Le ... Hootan Nakhost Chitta Baral Chen-Yu Lee Tomas Pfister Hamid Palangi 26 1 0 22 Feb 2025
Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents Patrick Tser Jern Kon Jiachen Liu Qiuyi Ding Yiming Qiu Zhenning Yang Yibo Huang Jayanth Srinivasa Myungjin Lee Mosharaf Chowdhury Ang Chen 42 3 0 22 Feb 2025
Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models A. Narayan D. Biderman Sabri Eyuboglu Avner May Scott W. Linderman James Zou Christopher Ré 39 0 0 21 Feb 2025
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use Zaid Khan Ali Farhadi Ranjay Krishna Luca Weihs Mohit Bansal Tanmay Gupta 37 0 0 21 Feb 2025
A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics Ting-Ruen Wei Haowei Liu Xuyang Wu Yi Fang LRM AI4CE ReLM KELM 101 1 0 21 Feb 2025
Pragmatic Reasoning improves LLM Code Generation Zhuchen Cao Sven Apel Adish Singla Vera Demberg LRM 34 0 0 20 Feb 2025
Autellix: An Efficient Serving Engine for LLM Agents as General Programs Michael Luo Xiaoxiang Shi Colin Cai Tianjun Zhang Justin Wong ... Chi Wang Yanping Huang Zhifeng Chen Joseph E. Gonzalez Ion Stoica 47 2 0 20 Feb 2025
Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes Bryan R Christ Zack Gottesman Jonathan Kropko Thomas Hartvigsen LRM 43 2 0 20 Feb 2025
SIFT: Grounding LLM Reasoning in Contexts via Stickers Zihao Zeng Xuyao Huang Boxiu Li Zhijie Deng LRM 31 2 0 19 Feb 2025
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models Yingqian Cui Pengfei He Jingying Zeng Hui Liu X. Tang ... Zhen Li Suhang Wang Yue Xing Jiliang Tang Qi He LRM 29 6 0 18 Feb 2025
S $^2$ R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning Ruotian Ma Peisong Wang Cheng Liu Xingyan Liu Jiaqi Chen Bang Zhang Xin Zhou Nan Du Jia Li LRM 54 2 0 18 Feb 2025
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering? Yucheng Shi Tianze Yang Canyu Chen Quanzheng Li Tianming Liu X. Li Ninghao Liu MedIm 44 1 0 18 Feb 2025
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task Yuchen Yan Yongliang Shen Yang Liu Jin Jiang Xin Xu M. Zhang Jian Shao Yueting Zhuang ReLM LRM 48 2 0 17 Feb 2025
How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines Ayan Sengupta Yash Goel Tanmoy Chakraborty 36 0 0 17 Feb 2025
Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale Fan Zhou Zengzhi Wang Qian Liu Junlong Li Pengfei Liu ALM 83 14 0 17 Feb 2025
Learning to Reason from Feedback at Test-Time Yanyang Li M. Lyu Liwei Wang LRM 24 1 0 16 Feb 2025
KernelBench: Can LLMs Write Efficient GPU Kernels? Anne Ouyang Simon Guo Simran Arora Alex L. Zhang William Hu Christopher Ré Azalia Mirhoseini ALM 30 1 0 14 Feb 2025
When More is Less: Understanding Chain-of-Thought Length in LLMs Yuyang Wu Yifei Wang Tianqi Du Stefanie Jegelka Yisen Wang LRM 44 22 0 11 Feb 2025
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations Kaixuan Huang Jiacheng Guo Zihao Li X. Ji Jiawei Ge ... Yangsibo Huang Chi Jin Xinyun Chen Chiyuan Zhang Mengdi Wang AAML LRM 66 7 0 10 Feb 2025
Examining False Positives under Inference Scaling for Mathematical Reasoning Yu Guang Wang Nan Yang Liang Wang Furu Wei LRM 59 3 0 10 Feb 2025
Iterative Deepening Sampling for Large Language Models Weizhe Chen Sven Koenig B. Dilkina LRM ReLM 83 0 0 08 Feb 2025
GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? Yang Zhou Hongyi Liu Zhuoming Chen Yuandong Tian Beidi Chen LRM 47 7 0 07 Feb 2025
Policy Guided Tree Search for Enhanced LLM Reasoning Yang Li LRM 45 0 0 04 Feb 2025
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods Isha Puri Shivchander Sudalairaj Guangxuan Xu Kai Xu Akash Srivastava LRM 62 3 0 03 Feb 2025
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial? Wenzhe Li Yong Lin Mengzhou Xia Chi Jin MoE 64 2 0 02 Feb 2025
COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models Tobias Materzok LRM 58 0 0 28 Jan 2025
Domaino1s: Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains Xu Chu Zhijie Tan Hanlin Xue Guanyu Wang Tong Mo Weiping Li ELM LRM 46 1 0 24 Jan 2025
CodeMonkeys: Scaling Test-Time Compute for Software Engineering Ryan Ehrlich Bradley Brown Jordan Juravsky Ronald Clark Christopher Ré Azalia Mirhoseini 47 5 0 24 Jan 2025
From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning Yafu Li Zhilin Wang Tingchen Fu Ganqu Cui Sen Yang Yu Cheng 36 1 0 21 Jan 2025
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling Zhenyu Hou Xin Lv Rui Lu J. Zhang Y. Li Zijun Yao Juanzi Li J. Tang Yuxiao Dong OffRL LRM ReLM 47 20 0 20 Jan 2025
Multi-Step Reasoning in Korean and the Emergent Mirage Guijin Son Hyunwoo Ko Dasol Choi LRM ReLM 56 0 0 10 Jan 2025
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking Xinyu Guan L. Zhang Yifei Liu Ning Shang Youran Sun Yi Zhu Fan Yang Mao Yang LRM SyDa ReLM 50 74 0 08 Jan 2025
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying Federico Castagna I. Sassoon Simon Parsons LRM 80 0 0 19 Dec 2024
Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling Junyi Li Hwee Tou Ng LRM 64 0 0 19 Dec 2024
Test-Time Alignment via Hypothesis Reweighting Yoonho Lee Jonathan Williams Henrik Marklund Archit Sharma E. Mitchell Anikait Singh Chelsea Finn 83 3 0 11 Dec 2024
Smoothie: Label Free Language Model Routing Neel Guha Mayee F. Chen Trevor Chow Ishan S. Khare Christopher Ré 69 3 0 06 Dec 2024