Title
GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving Jiaxin Zhang Zhong-Zhi Li Ming-Liang Zhang Fei Yin Cheng-Lin Liu Yashar Moshfeghi ELM LRM 20 9 0 15 Feb 2024
CodeMind: A Framework to Challenge Large Language Models for Code Reasoning Changshu Liu Shizhuo Dylan Zhang Ali Reza Ibrahimzada Reyhaneh Jabbarvand ELM ReCod LRM 20 0 0 15 Feb 2024
Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs Víctor Gallego SyDa 17 6 0 12 Feb 2024
Suppressing Pink Elephants with Direct Principle Feedback Louis Castricato Nathan Lile Suraj Anand Hailey Schoelkopf Siddharth Verma Stella Biderman 58 9 0 12 Feb 2024
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model A. Ustun Viraat Aryabumi Zheng-Xin Yong Wei-Yin Ko Daniel D'souza ... Shayne Longpre Niklas Muennighoff Marzieh Fadaee Julia Kreutzer Sara Hooker ALM ELM SyDa LRM 14 178 0 12 Feb 2024
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning Zhiheng Xi Wenxiang Chen Boyang Hong Senjie Jin Rui Zheng ... Xinbo Zhang Peng Sun Tao Gui Qi Zhang Xuanjing Huang LRM 27 12 0 08 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Y. K. Li Yu-Huan Wu Daya Guo ReLM LRM 12 189 0 05 Feb 2024
Intent-based Prompt Calibration: Enhancing prompt optimization with synthetic boundary cases Elad Levi Eli Brosh Matan Friedmann 14 5 0 05 Feb 2024
Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision Zihan Wang Yunxuan Li Yuexin Wu Liangchen Luo Le Hou Hongkun Yu Jingbo Shang LRM 21 10 0 05 Feb 2024
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback Shihan Dou Yan Liu Haoxiang Jia Limao Xiong Enyu Zhou ... Tao Ji Rui Zheng Qi Zhang Xuanjing Huang Tao Gui LLMAG 51 9 0 02 Feb 2024
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing Fangkai Jiao Chengwei Qin Zhengyuan Liu Nancy F. Chen Shafiq R. Joty LRM 16 12 0 01 Feb 2024
Large Language Models for Mathematical Reasoning: Progresses and Challenges Janice Ahn Rishu Verma Renze Lou Di Liu Rui Zhang Wenpeng Yin LRM 23 63 0 31 Jan 2024
YODA: Teacher-Student Progressive Learning for Language Models Jianqiao Lu Wanjun Zhong Yufei Wang Zhijiang Guo Qi Zhu ... Baojun Wang Yasheng Wang Lifeng Shang Xin Jiang Qun Liu LRM 6 5 0 28 Jan 2024
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data Fengbin Zhu Ziyang Liu Fuli Feng Chao Wang Moxin Li Tat-Seng Chua LMTD LRM 6 13 0 24 Jan 2024
Distilling Mathematical Reasoning Capabilities into Small Language Models Xunyu Zhu Jian Li Yong Liu Can Ma Weiping Wang LRM 16 2 0 22 Jan 2024
ReFT: Reasoning with Reinforced Fine-Tuning Trung Quoc Luong Xinbo Zhang Zhanming Jie Peng Sun Xiaoran Jin Hang Li OffRL LRM ReLM 22 29 0 17 Jan 2024
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline Minpeng Liao Wei Luo Chengxi Li Jing Wu Kai Fan LRM 24 19 0 16 Jan 2024
A Study on Large Language Models' Limitations in Multiple-Choice Question Answering Aisha Khatun Daniel G. Brown ELM 19 9 0 15 Jan 2024
Question Translation Training for Better Multilingual Reasoning Wenhao Zhu Shujian Huang Fei Yuan Shuaijie She Jiajun Chen Alexandra Birch LRM 8 14 0 15 Jan 2024
xCoT: Cross-lingual Instruction Tuning for Cross-lingual Chain-of-Thought Reasoning Linzheng Chai Jian Yang Tao Sun Hongcheng Guo Jiaheng Liu ... Xiannian Liang Jiaqi Bai Tongliang Li Qiyao Peng Zhoujun Li LRM 21 38 0 13 Jan 2024
MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization Shuaijie She Wei Zou Shujian Huang Wenhao Zhu Xiang Liu Xiang Geng Jiajun Chen LRM 36 13 0 12 Jan 2024
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint Zhipeng Chen Kun Zhou Wayne Xin Zhao Junchen Wan Fuzheng Zhang Di Zhang Ji-Rong Wen KELM 23 22 0 11 Jan 2024
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism DeepSeek-AI Xiao Bi : Xiao Bi Deli Chen Guanting Chen ... Yao Zhao Shangyan Zhou Shunfeng Zhou Qihao Zhu Yuheng Zou LRM ALM 125 298 0 05 Jan 2024
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives Wenqi Zhang Yongliang Shen Linjuan Wu Qiuying Peng Jun Wang Y. Zhuang Weiming Lu LRM LLMAG 14 48 0 04 Jan 2024
GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse Hongzhan Lin Ziyang Luo Bo Wang Ruichao Yang Jing Ma 18 22 0 03 Jan 2024
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models Zixiang Chen Yihe Deng Huizhuo Yuan Kaixuan Ji Quanquan Gu SyDa 11 269 0 02 Jan 2024
Olapa-MCoT: Enhancing the Chinese Mathematical Reasoning Capability of LLMs Shaojie Zhu Zhaobin Wang Chengxiang Zhuo Hui Lu Bo Hu Zang Li LRM 19 0 0 29 Dec 2023
MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation Zhongshen Zeng Pengguang Chen Shu Liu Haiyun Jiang Jiaya Jia ReLM ELM LRM 14 7 0 28 Dec 2023
Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges Qingyao Li Lingyue Fu Weiming Zhang Xianyu Chen Jingwei Yu Wei Xia Weinan Zhang Ruiming Tang Yong Yu AI4Ed ELM 12 16 0 27 Dec 2023
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model Jiahui Gao Renjie Pi Jipeng Zhang Jiacheng Ye Wanjun Zhong ... Lanqing Hong Jianhua Han Hang Xu Zhenguo Li Lingpeng Kong SyDa ReLM LRM 36 84 0 18 Dec 2023
Mixed Distillation Helps Smaller Language Model Better Reasoning Chenglin Li Qianglong Chen Liangyue Li Wang Caiyu Yicheng Li Zhang Yin Yin Zhang LRM 10 5 0 17 Dec 2023
TinyGSM: achieving >80% on GSM8k with small language models Bingbin Liu Sébastien Bubeck Ronen Eldan Janardhan Kulkarni Yuanzhi Li Anh Nguyen Rachel A. Ward Yi Zhang ALM 6 44 0 14 Dec 2023
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations Peiyi Wang Lei Li Zhihong Shao R. X. Xu Damai Dai Yifei Li Deli Chen Y.Wu Zhifang Sui AIMat LRM ALM 23 91 0 14 Dec 2023
Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent Haoran Liao Qinyi Du Shaohua Hu Hao He Yanyan Xu Jidong Tian Yaohui Jin LRM AI4CE 17 1 0 14 Dec 2023
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning Xijie Huang Li Lyna Zhang Kwang-Ting Cheng Fan Yang Mao Yang LRM ReLM 16 8 0 14 Dec 2023
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? Hailin Chen Fangkai Jiao Xingxuan Li Chengwei Qin Mathieu Ravaut Ruochen Zhao Caiming Xiong Shafiq R. Joty ELM CLL AI4MH LRM ALM 68 27 0 28 Nov 2023
YUAN 2.0: A Large Language Model with Localized Filtering-based Attention Shaohua Wu Xudong Zhao Shenling Wang Jiangang Luo Lingjun Li ... Wei Wang Tong Yu Rongguo Zhang Jiahua Zhang Chao Wang OSLM 32 6 0 27 Nov 2023
LLM-Assisted Code Cleaning For Training Accurate Code Generators Naman Jain Tianjun Zhang Wei-Lin Chiang Joseph E. Gonzalez Koushik Sen Ion Stoica 20 20 0 25 Nov 2023
ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization Prateek Yadav Leshem Choshen Colin Raffel Mohit Bansal 11 12 0 22 Nov 2023
Meta Prompting for AI Systems Yifan Zhang Yang Yuan Andrew Chi-Chih Yao LLMAG LRM 19 5 0 20 Nov 2023
DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in Understanding Long Documents with Tabular Data Yilun Zhao Yitao Long Hongjun Liu Linyong Nan Lyuhao Chen Ryo Kamoi Yixin Liu Xiangru Tang Rui Zhang Arman Cohan 23 12 0 16 Nov 2023
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning Fei Yu Anningzhe Gao Benyou Wang OffRL LRM 13 20 0 16 Nov 2023
Symbol-LLM: Towards Foundational Symbol-centric Interface For Large Language Models Fangzhi Xu Zhiyong Wu Qiushi Sun Siyu Ren Fei Yuan Shuai Yuan Qika Lin Yu Qiao Jun Liu LLMAG 6 21 0 15 Nov 2023
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch Le Yu Yu Bowen Haiyang Yu Fei Huang Yongbin Li MoMe 17 167 0 06 Nov 2023
Learning From Mistakes Makes LLM Better Reasoner Shengnan An Zexiong Ma Zeqi Lin Nanning Zheng Jian-Guang Lou Weizhu Chen LRM 11 73 0 31 Oct 2023
JudgeLM: Fine-tuned Large Language Models are Scalable Judges Lianghui Zhu Xinggang Wang Xinlong Wang ELM ALM 54 103 0 26 Oct 2023
SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving Xueliang Zhao Xinting Huang Wei Bi Lingpeng Kong LRM 31 0 0 19 Oct 2023
AI for Mathematics: A Cognitive Science Perspective Cedegao E. Zhang Katherine M. Collins Adrian Weller Joshua B. Tenenbaum 26 5 0 19 Oct 2023
Language Models as Zero-Shot Trajectory Generators Teyun Kwon Norman Di Palo Edward Johns LM&Ro 17 44 0 17 Oct 2023
Llemma: An Open Language Model For Mathematics Zhangir Azerbayev Hailey Schoelkopf Keiran Paster Marco Dos Santos Stephen Marcus McAleer Albert Q. Jiang Jia Deng Stella Biderman Sean Welleck CLL 16 204 0 16 Oct 2023