Title
Fleet of Agents: Coordinated Problem Solving with Large Language Models Akhil Arora L. Klein Nearchos Potamitis Roland Aydin Çağlar Gülçehre Robert West LLMAG 34 0 0 07 May 2024
MAmmoTH2: Scaling Instructions from the Web Xiang Yue Tuney Zheng Ge Zhang Wenhu Chen ALM LRM 41 85 0 06 May 2024
General Purpose Verification for Chain of Thought Prompting Robert Vacareanu Anurag Pratik Evangelia Spiliopoulou Zheng Qi Giovanni Paolini Neha Ann John Jie Ma Yassine Benajiba Miguel Ballesteros LRM 21 7 0 30 Apr 2024
Logic Agent: Enhancing Validity with Logic Rule Invocation Hanmeng Liu Zhiyang Teng Chaoli Zhang Yue Zhang LRM LLMAG 37 4 0 28 Apr 2024
NExT: Teaching Large Language Models to Reason about Code Execution Ansong Ni Miltiadis Allamanis Arman Cohan Yinlin Deng Kensen Shi Charles Sutton Pengcheng Yin ReLM LRM 26 34 0 23 Apr 2024
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems Qihuang Zhong Kang Wang Ziyang Xu Juhua Liu Liang Ding Bo Du LRM AIMat 55 3 0 23 Apr 2024
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu LRM ReLM 33 62 0 18 Apr 2024
BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models Yu Feng Ben Zhou Weidong Lin Dan Roth 64 4 0 18 Apr 2024
Auctions with LLM Summaries Kumar Avinava Dubey Zhe Feng Rahul Kidambi Aranyak Mehta Di Wang 24 9 0 11 Apr 2024
Empowering Biomedical Discovery with AI Agents Shanghua Gao Ada Fang Yepeng Huang Valentina Giunchiglia Ayush Noori Jonathan Richard Schwarz Yasha Ektefaie Jovana Kondic Marinka Zitnik LLMAG AI4CE 39 66 0 03 Apr 2024
$$\texttt{LM}^\texttt{2}$: A Simple Society of Language Models Solves Complex Reasoning$ $\texttt{LM}^\texttt{2}$ : A Simple Society of Language Models Solves Complex Reasoning Gurusha Juneja Subhabrata Dutta Tanmoy Chakraborty ReLM LRM 27 2 0 02 Apr 2024
Source-Aware Training Enables Knowledge Attribution in Language Models Muhammad Khalifa David Wadden Emma Strubell Honglak Lee Lu Wang Iz Beltagy Hao Peng HILM 34 14 0 01 Apr 2024
A Theory for Length Generalization in Learning to Reason Changnan Xiao Bing Liu LRM 34 8 0 31 Mar 2024
BP4ER: Bootstrap Prompting for Explicit Reasoning in Medical Dialogue Generation Yuhong He Yongqi Zhang Shizhu He Jun Wan LRM 29 0 0 28 Mar 2024
Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering Yexin Wu Zhuosheng Zhang Hai Zhao LRM 19 3 0 28 Mar 2024
Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices Sara Abdali Richard Anarfi C. Barberan Jia He PILM 65 24 0 19 Mar 2024
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents Abhaysinh Zala Jaemin Cho Han Lin Jaehong Yoon Mohit Bansal 34 13 0 18 Mar 2024
Reasoning in Transformers -- Mitigating Spurious Correlations and Reasoning Shortcuts Daniel Enström Viktor Kjellberg Moa Johansson LRM 25 3 0 17 Mar 2024
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking E. Zelikman Georges Harik Yijia Shao Varuna Jayasiri Nick Haber Noah D. Goodman LLMAG ReLM LRM 47 111 0 14 Mar 2024
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models Ning Ding Yulin Chen Ganqu Cui Xingtai Lv Weilin Zhao Ruobing Xie Bowen Zhou Zhiyuan Liu Maosong Sun ALM MoMe AI4CE 33 7 0 13 Mar 2024
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code Naman Jain King Han Alex Gu Wen-Ding Li Fanjia Yan Tianjun Zhang Sida I. Wang Armando Solar-Lezama Koushik Sen Ion Stoica ELM 29 268 0 12 Mar 2024
The pitfalls of next-token prediction Gregor Bachmann Vaishnavh Nagarajan 33 58 0 11 Mar 2024
Reverse That Number! Decoding Order Matters in Arithmetic Learning Daniel Zhang-Li Nianyi Lin Jifan Yu Zheyuan Zhang Zijun Yao Xiaokang Zhang Lei Hou Jing Zhang Juanzi Li 27 3 0 09 Mar 2024
Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text Sara Abdali Richard Anarfi C. Barberan Jia He DeLMO 24 10 0 09 Mar 2024
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought James Chua Edward Rees Hunar Batra Samuel R. Bowman Julian Michael Ethan Perez Miles Turpin LRM 39 13 0 08 Mar 2024
RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation Zihao Wang Anji Liu Haowei Lin Jiaqi Li Xiaojian Ma Yitao Liang ReLM RALM LRM 85 47 0 08 Mar 2024
Few shot chain-of-thought driven reasoning to prompt LLMs for open ended medical question answering Ojas Gramopadhye Saeel Sandeep Nachane Prateek Chanda Ganesh Ramakrishnan Kshitij S. Jadhav Yatin Nandwani Dinesh Raghu Sachindra Joshi LM&MA ELM LRM 35 35 0 07 Mar 2024
How Well Can Transformers Emulate In-context Newton's Method? Angeliki Giannou Liu Yang Tianhao Wang Dimitris Papailiopoulos Jason D. Lee 27 16 0 05 Mar 2024
Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment Congzhi Zhang Linhai Zhang Jialong Wu Deyu Zhou Guoqiang Xu CML AI4CE LRM 44 15 0 05 Mar 2024
What Is Missing in Multilingual Visual Reasoning and How to Fix It Yueqi Song Simran Khanuja Graham Neubig VLM LRM 82 6 0 03 Mar 2024
Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods Polina Tsvilodub Hening Wang Sharon Grosch Michael Franke 20 8 0 01 Mar 2024
Approaching Human-Level Forecasting with Language Models Danny Halawi Fred Zhang Chen Yueh-Han Jacob Steinhardt 42 29 0 28 Feb 2024
RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval Kaiyue Wen Xingyu Dang Kaifeng Lyu 44 24 0 28 Feb 2024
How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Subhabrata Dutta Joykirat Singh Soumen Chakrabarti Tanmoy Chakraborty LRM 30 23 0 28 Feb 2024
BlendSQL: A Scalable Dialect for Unifying Hybrid Question Answering in Relational Algebra Parker Glenn Parag Dakle Liang Wang Preethi Raghavan ReLM 25 6 0 27 Feb 2024
Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies Flavio Petruzzellis Alberto Testolin A. Sperduti ELM 30 7 0 27 Feb 2024
How Do Humans Write Code? Large Models Do It the Same Way Too Long Li Xuzheng He LRM 33 0 0 24 Feb 2024
Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs Aaditya K. Singh DJ Strouse 38 46 0 22 Feb 2024
Understanding and Patching Compositional Reasoning in LLMs Zhaoyi Li Gangwei Jiang Hong Xie Linqi Song Defu Lian Ying Wei LRM 46 20 0 22 Feb 2024
Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping Lucas Lehnert Sainbayar Sukhbaatar DiJia Su Qinqing Zheng Paul Mcvay Michael Rabbat Yuandong Tian 19 52 0 21 Feb 2024
Do Efficient Transformers Really Save Computation? Kai-Bo Yang Jan Ackermann Zhenyu He Guhao Feng Bohang Zhang Yunzhen Feng Qiwei Ye Di He Liwei Wang 34 8 0 21 Feb 2024
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems Zhiyuan Li Hong Liu Denny Zhou Tengyu Ma LRM AI4CE 20 95 0 20 Feb 2024
Can LLMs Compute with Reasons? Harshit Sandilya Peehu Raj J. Bafna Srija Mukhopadhyay Shivansh Sharma Ellwil Sharma Arastu Sharma Neeta Trivedi Manish Shrivastava Rajesh Kumar LRM 19 0 0 19 Feb 2024
Where It Really Matters: Few-Shot Environmental Conservation Media Monitoring for Low-Resource Languages Sameer Jain Sedrick Scott Keh Shova Chettri Karun Dewan Pablo R. Izquierdo ... Pooja Shreshtha Cesar Suarez Zheyuan Ryan Shi Lei Li Fei Fang 37 0 0 19 Feb 2024
Structured Chain-of-Thought Prompting for Few-Shot Generation of Content-Grounded QA Conversations M. Sultan Jatin Ganhotra Ramón Fernández Astudillo LRM 16 3 0 19 Feb 2024
Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models S. Hayati Taehee Jung Tristan Bodding-Long Sudipta Kar A. Sethy Joo-Kyung Kim Dongyeop Kang ALM LRM 30 6 0 18 Feb 2024
Chain of Logic: Rule-Based Reasoning with Large Language Models Sergio Servantez Joe Barrow Kristian J. Hammond R. Jain ReLM ELM AILaw LRM AI4CE 32 1 0 16 Feb 2024
Chain-of-Thought Reasoning Without Prompting Xuezhi Wang Denny Zhou ReLM LRM 144 99 0 15 Feb 2024
Reward Generalization in RLHF: A Topological Perspective Tianyi Qiu Fanzhi Zeng Jiaming Ji Dong Yan Kaile Wang Jiayi Zhou Yang Han Josef Dai Xuehai Pan Yaodong Yang AI4CE 25 3 0 15 Feb 2024
Lissard: Long and Simple Sequential Reasoning Datasets M. Bueno R. Lotufo Rodrigo Nogueira RALM LRM 17 2 0 12 Feb 2024