Title
How to Leverage Digit Embeddings to Represent Numbers? Jasivan Sivakumar N. Moosavi 21 0 0 01 Jul 2024
Advancing Process Verification for Large Language Models via Tree-Based Preference Learning Mingqian He Yongliang Shen Wenqi Zhang Zeqi Tan Weiming Lu LRM 35 5 0 29 Jun 2024
MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data Meng Fang Xiangpeng Wan Fei Lu Fei Xing Kai Zou 22 18 0 26 Jun 2024
From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models Sean Welleck Amanda Bertsch Matthew Finlayson Hailey Schoelkopf Alex Xie Graham Neubig Ilia Kulikov Zaid Harchaoui 33 47 0 24 Jun 2024
Anomaly Detection of Tabular Data Using LLMs Aodong Li Yunhan Zhao Chen Qiu Marius Kloft Padhraic Smyth Maja R. Rudolph Stephan Mandt 38 9 0 24 Jun 2024
PORT: Preference Optimization on Reasoning Traces Salem Lahlou Abdalgader Abubaker Hakim Hacid LRM 31 1 0 23 Jun 2024
Proving Olympiad Algebraic Inequalities without Human Demonstrations Chenrui Wei Mengzhou Sun Wei Wang LRM 42 6 0 20 Jun 2024
What Are the Odds? Language Models Are Capable of Probabilistic Reasoning Akshay Paruchuri Jake Garrison Shun Liao John Hernandez Jacob Sunshine Tim Althoff Xin Liu Daniel J. McDuff LRM 29 7 0 18 Jun 2024
Step-level Value Preference Optimization for Mathematical Reasoning Guoxin Chen Minpeng Liao Chengxi Li Kai Fan LRM 32 32 0 16 Jun 2024
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery Yu Zhang Xiusi Chen Bowen Jin Sheng Wang Shuiwang Ji Wei Wang Jiawei Han 40 27 0 16 Jun 2024
ReMI: A Dataset for Reasoning with Multiple Images Mehran Kazemi Nishanth Dikkala Ankit Anand Petar Dević Ishita Dasgupta ... Bahare Fatemi Pranjal Awasthi Dee Guo Sreenivas Gollapudi Ahmed Qureshi LRM VLM 34 13 0 13 Jun 2024
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning Bahare Fatemi Mehran Kazemi Anton Tsitsulin Karishma Malkan Jinyeong Yim John Palowitch Sungyong Seo Jonathan J. Halcrow Bryan Perozzi LRM 35 26 0 13 Jun 2024
TelecomRAG: Taming Telecom Standards with Retrieval Augmented Generation and LLMs G. M. Yilma J. Ayala-Romero A. Garcia-Saavedra Xavier Costa-Perez 19 7 0 11 Jun 2024
Improving Autoformalization using Type Checking Auguste Poiroux Gail Weiss Viktor Kunčak Antoine Bosselut 37 2 0 11 Jun 2024
On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions Denys Pushkin Raphael Berthier Emmanuel Abbe 23 0 0 10 Jun 2024
LoCoCo: Dropping In Convolutions for Long Context Compression Ruisi Cai Yuandong Tian Zhangyang Wang Beidi Chen 33 9 0 08 Jun 2024
UltraMedical: Building Specialized Generalists in Biomedicine Kaiyan Zhang Sihang Zeng Ermo Hua Ning Ding Zhang-Ren Chen ... Xuekai Zhu Xingtai Lv Hu Jinfang Zhiyuan Liu Bowen Zhou LM&MA 39 20 0 06 Jun 2024
Lean Workbook: A large-scale Lean problem set formalized from natural language math problems Huaiyuan Ying Zijian Wu Yihan Geng Jiayu Wang Dahua Lin Kai Chen 31 24 0 06 Jun 2024
Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data Haolong Li Yu Ma Yinqi Zhang Chen Ye Jie Chen ReLM LRM 32 2 0 04 Jun 2024
Conditional Language Learning with Context X. Zhang Miao Li Ji Wu 44 3 0 04 Jun 2024
Explicitly Encoding Structural Symmetry is Key to Length Generalization in Arithmetic Tasks Mahdi Sabbaghi George Pappas Hamed Hassani Surbhi Goel 29 4 0 04 Jun 2024
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction Xiaoyuan Li Wenjie Wang Moxin Li Junrong Guo Yang Zhang Fuli Feng ELM LRM 33 15 0 02 Jun 2024
Stress-Testing Capability Elicitation With Password-Locked Models Ryan Greenblatt Fabien Roger Dmitrii Krasheninnikov David M. Krueger 30 13 0 29 May 2024
MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions Zhenwen Liang Dian Yu Wenhao Yu Wenlin Yao Zhihan Zhang Xiangliang Zhang Dong Yu LRM 35 9 0 29 May 2024
Towards Dialogues for Joint Human-AI Reasoning and Value Alignment Elfia Bezou-Vrakatseli O. Cocarascu Sanjay Modgil 30 0 0 28 May 2024
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment Jiaxiang Li Siliang Zeng Hoi-To Wai Chenliang Li Alfredo García Mingyi Hong 57 15 0 28 May 2024
Multi-Reference Preference Optimization for Large Language Models Hung Le Quan Tran D. Nguyen Kien Do Saloni Mittal Kelechi Ogueji Svetha Venkatesh 48 0 0 26 May 2024
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time Jikun Kang Xin Zhe Li Xi Chen Amirreza Kazemi Qianyi Sun ... Xu He Quan He Feng Wen Jianye Hao Jun Yao LRM ReLM 29 14 0 25 May 2024
GECKO: Generative Language Model for English, Code and Korean Sungwoo Oh Donggyu Kim VLM 27 0 0 24 May 2024
Lessons from the Trenches on Reproducible Evaluation of Language Models Stella Biderman Hailey Schoelkopf Lintang Sutawika Leo Gao J. Tow ... Xiangru Tang Kevin A. Wang Genta Indra Winata Franccois Yvon Andy Zou ELM ALM 130 52 3 23 May 2024
Proving Theorems Recursively Haiming Wang Huajian Xin Zhengying Liu Wenda Li Yinya Huang ... Zhicheng YANG Jing Tang Jian Yin Zhenguo Li Xiaodan Liang LRM 18 10 0 23 May 2024
JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models Kun Zhou Beichen Zhang Jiapeng Wang Zhipeng Chen Wayne Xin Zhao Jing Sha Zhichao Sheng Shijin Wang Ji-Rong Wen SyDa LRM 33 29 0 23 May 2024
Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs Yihao Huang Chong Wang Xiaojun Jia Qing-Wu Guo Felix Juefei Xu Jian Zhang G. Pu Yang Liu 25 8 0 23 May 2024
Can LLMs Solve longer Math Word Problems Better? Xin Xu Tong Xiao Zitong Chao Zhenya Huang Can Yang Yang Wang 70 10 0 23 May 2024
MuMath-Code: Combining Tool-Use Large Language Models with Multi-perspective Data Augmentation for Mathematical Reasoning Shuo Yin Weihao You Zhilong Ji Guoqiang Zhong Jinfeng Bai LRM SyDa 35 9 0 13 May 2024
MacBehaviour: An R package for behavioural experimentation on large language models Xufeng Duan Shixuan Li Zhenguang G. Cai MLLM 34 2 0 13 May 2024
MathDivide: Improved mathematical reasoning by large language models S. Srivastava Ashutosh Gandhi LRM ReLM 30 0 0 12 May 2024
Granite Code Models: A Family of Open Foundation Models for Code Intelligence Mayank Mishra Matt Stallone Gaoyuan Zhang Yikang Shen Aditya Prasad ... Amith Singhee Nirmit Desai David D. Cox Ruchir Puri Rameswar Panda AI4TS 46 54 0 07 May 2024
AlphaMath Almost Zero: process Supervision without process Guoxin Chen Minpeng Liao Chengxi Li Kai Fan AIMat LRM 27 81 0 06 May 2024
MAmmoTH2: Scaling Instructions from the Web Xiang Yue Tuney Zheng Ge Zhang Wenhu Chen ALM LRM 41 84 0 06 May 2024
Exploring the Limits of Fine-grained LLM-based Physics Inference via Premise Removal Interventions Jordan Meadows Tamsin James André Freitas ReLM LRM AI4CE 31 1 0 29 Apr 2024
BlockLLM: Multi-tenant Finer-grained Serving for Large Language Models Jiamin Li Le Xu Hong-Yu Xu Aditya Akella 19 1 0 28 Apr 2024
Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks Amir Saeidi Shivanshu Verma Chitta Baral Chitta Baral ALM 30 22 0 23 Apr 2024
PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning? Mitodru Niyogi Arnab Bhattacharya LRM ReLM 30 0 0 22 Apr 2024
Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? Shayne Longpre Robert Mahari Naana Obeng-Marnu William Brannon Tobin South Katy Gero Sandy Pentland Jad Kabbara 51 5 0 19 Apr 2024
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing Ye Tian Baolin Peng Linfeng Song Lifeng Jin Dian Yu Haitao Mi Dong Yu LRM ReLM 33 62 0 18 Apr 2024
Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards Hyeonbin Hwang Doyoung Kim Seungone Kim Seonghyeon Ye Minjoon Seo LRM ReLM 32 7 0 16 Apr 2024
A Survey on Deep Learning for Theorem Proving Zhaoyu Li Jialiang Sun Logan Murphy Qidong Su Zenan Li Xian Zhang Kaiyu Yang Xujie Si LRM 42 21 0 15 Apr 2024
Rho-1: Not All Tokens Are What You Need Zheng-Wen Lin Zhibin Gou Yeyun Gong Xiao Liu Yelong Shen ... Chen Lin Yujiu Yang Jian Jiao Nan Duan Weizhu Chen CLL 46 55 0 11 Apr 2024
Best Practices and Lessons Learned on Synthetic Data for Language Models Ruibo Liu Jerry W. Wei Fangyu Liu Chenglei Si Yanzhe Zhang ... Steven Zheng Daiyi Peng Diyi Yang Denny Zhou Andrew M. Dai SyDa EgoV 41 85 0 11 Apr 2024