Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

29 September 2023

Xidong Feng

Ziyu Wan

Muning Wen

Stephen Marcus McAleer

Papers citing "Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training"

27 / 27 papers shown

Title
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking Runquan Gui Z. Wang J. Wang Chi Ma Huiling Zhen M. Yuan Jianye Hao Defu Lian Enhong Chen Feng Wu LRM 34 0 0 05 May 2025
Accelerating Large Language Model Reasoning via Speculative Search Zhihai Wang Jie Wang Jilai Pan Xilin Xia Huiling Zhen M. Yuan Jianye Hao Feng Wu ReLM LRM 54 0 0 03 May 2025
COSMOS: Predictable and Cost-Effective Adaptation of LLMs Jiayu Wang Aws Albarghouthi Frederic Sala 42 0 0 30 Apr 2025
Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User X. Wang Chunxuan Xia Junyi Li Fanzhe Meng Lei Huang Jinpeng Wang Wayne Xin Zhao Ji-Rong Wen 58 0 0 29 Apr 2025
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo Liangbing Zhao Sayak Paul Yue Liao Renrui Zhang Yi Xin Peng Gao Mohamed Elhoseiny H. Li VLM 63 0 0 22 Apr 2025
Teaching Large Language Models to Reason through Learning and Forgetting Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 37 0 0 15 Apr 2025
Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Ximing Lu Seungju Han David Acuna Hyunwoo Kim Jaehun Jung ... Niklas Muennighoff M. Patwary M. Shoeybi Bryan Catanzaro Yejin Choi ReLM LRM 40 2 0 06 Apr 2025
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models Yuchen Yan Yongliang Shen Y. Liu Jin Jiang M. Zhang Jian Shao Yueting Zhuang LRM ReLM 53 3 0 09 Mar 2025
How Far are LLMs from Real Search? A Comprehensive Study on Efficiency, Completeness, and Inherent Capabilities M. Lin Hui Liu X. Tang Jingying Zeng Zhenwei Dai Chen Luo Zheng Li Xiang Zhang Qi He Suhang Wang OffRL LRM 39 0 0 25 Feb 2025
Learning to Retrieve and Reason on Knowledge Graph through Active Self-Reflection Han Zhang Langshi Zhou Hanfang Yang LRM RALM ReLM KELM 63 1 0 24 Feb 2025
Flaming-hot Initiation with Regular Execution Sampling for Large Language Models Weizhe Chen Zhicheng Zhang Guanlin Liu Renjie Zheng Wenlei Shi Chen Dun Zheng Wu Xing Jin Lin Yan ALM LRM 51 1 0 17 Feb 2025
Bag of Tricks for Inference-time Computation of LLM Reasoning Fan Liu Wenshuo Chao Naiqiang Tan Hao Liu OffRL LRM 69 3 0 11 Feb 2025
Policy Guided Tree Search for Enhanced LLM Reasoning Yang Li LRM 45 0 0 04 Feb 2025
COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models Tobias Materzok LRM 60 0 0 28 Jan 2025
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning Beichen Zhang Yuhong Liu Xiaoyi Dong Yuhang Zang Pan Zhang Haodong Duan Yuhang Cao D. Lin J. T. Wang LRM ReLM 48 2 0 06 Jan 2025
DAWN-ICL: Strategic Planning of Problem-solving Trajectories for Zero-Shot In-Context Learning Xinyu Tang Xiaolei Wang Wayne Xin Zhao Ji-Rong Wen 30 3 0 26 Oct 2024
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning Xiyao Wang Linfeng Song Ye Tian Dian Yu Baolin Peng Haitao Mi Furong Huang Dong Yu LRM 37 9 0 09 Oct 2024
CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair Mingjie Liu Yun-Da Tsai Wenfei Zhou Haoxing Ren SyDa 3DV 38 3 0 19 Sep 2024
Reinforcing Language Agents via Policy Optimization with Action Decomposition Muning Wen Ziyu Wan Weinan Zhang Jun Wang Ying Wen 22 7 0 23 May 2024
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration Yang Zhang Shixin Yang Chenjia Bai Fei Wu Xiu Li Zhen Wang Xuelong Li LLMAG 20 25 0 23 May 2024
GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for Reasoning Problems Kaya Stechly Matthew Marquez Subbarao Kambhampati LRM 153 84 0 19 Oct 2023
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought Abulhair Saparov He He ELM LRM ReLM 116 270 0 03 Oct 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations Jaehun Jung Lianhui Qin Sean Welleck Faeze Brahman Chandra Bhagavatula Ronan Le Bras Yejin Choi ReLM LRM 203 157 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022