Title
APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning Azim Ospanov Farzan Farnia Roozbeh Yousefzadeh LRM 450 7 0 09 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Zijun Chen Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 284 1 0 07 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Xin Xu Ningyu Zhang LRM 473 5 0 06 May 2025
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models Zhouliang Yu Ruotian Peng Keyi Ding Yiming Li Zhongyuan Peng ... Huajian Xin Wenjie Huang Yandong Wen Ge Zhang Weiyang Liu LRM 723 17 0 05 May 2025
ACE: A Security Architecture for LLM-Integrated App Systems Evan Li Tushin Mallick Evan Rose William K. Robertson Alina Oprea Cristina Nita-Rotaru 490 11 0 29 Apr 2025
Can Large Language Models Learn Formal Logic? A Data-Driven Training and Evaluation Framework Yuan Xia Akanksha Atrey Fadoua Khmaissia Kedar S. Namjoshi LRM ELM 279 1 0 28 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Qi Zhang Tat-Seng Chua Tianwei Zhang ALM ELM 500 21 0 26 Apr 2025
Neural Theorem Proving: Generating and Structuring Proofs for Formal Verification Balaji Rao William Eiers Carlo Lipizzi 359 2 0 23 Apr 2025
FEABench: Evaluating Language Models on Multiphysics Reasoning Ability N. Mudur Hao Cui Subhashini Venugopalan Paul Raccuglia M. Brenner Peter C. Norgaard LLMAG ELM LRM 217 10 0 08 Apr 2025
Leanabell-Prover: Posttraining Scaling in Formal Reasoning Jingyuan Zhang Qi Wang Xingguang Ji Wenshu Fan Yang Yue Fuzheng Zhang Di Zhang Guorui Zhou Kun Gai LRM 454 18 0 08 Apr 2025
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem ProvingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Sara Rajaee Kumar Pratik Gabriele Cesa Arash Behboodi OffRL LRM 349 1 0 12 Mar 2025
Machine Learning meets Algebraic Combinatorics: A Suite of Datasets Capturing Research-level Conjecturing Ability in Pure Mathematics Herman Chau Helen Jenne Davis Brown Jesse He Mark Raugas Sara Billey Henry Kvinge 214 2 0 09 Mar 2025
LeanProgress: Guiding Search for Neural Theorem Proving via Proof Progress Prediction Suozhi Huang Peiyang Song Robert Joseph George Julius Berner AI4TS LRM 334 3 0 25 Feb 2025
CuDIP: Enhancing Theorem Proving in LLMs via Curriculum Learning-based Direct Preference Optimization Shuming Shi Ruobing Zuo Gaolei He Jianlin Wang Chenyang Xu Zhengfeng Yang 324 0 0 25 Feb 2025
Forecasting Rare Language Model Behaviors Erik Jones Meg Tong Jesse Mu Mohammed Mahfoud Jan Leike Roger C. Grosse Jared Kaplan William Fithian Ethan Perez Mrinank Sharma 283 5 0 24 Feb 2025
Steering LLMs for Formal Theorem Proving Shashank Kirtania Arun Shankar Iyer LLMSV 1.0K 0 0 21 Feb 2025
Simplifying Formal Proof-Generating Models with ChatGPT and Basic Searching Techniques Sangjun Han Taeil Hur Youngmi Hur Kathy Sangkyung Lee Myungyoon Lee Hyojae Lim 1.0K 0 0 20 Feb 2025
Evaluating Step-by-step Reasoning Traces: A Survey Jinu Lee Anjali Narayan-Chen LRM ELM 471 19 0 17 Feb 2025
Generating Millions Of Lean Theorems With Proofs By Exploring State Transition Graphs David Yin Jing Gao 179 1 0 16 Feb 2025
A cross-regional review of AI safety regulations in the commercial aviation Penny A. Barr Sohel M. Imroz 298 0 0 12 Feb 2025
Proving the Coding Interview: A Benchmark for Formally Verified Code Generation Quinn Dougherty Ronak Mehta ALM 230 9 0 08 Feb 2025
ATLAS: Autoformalizing Theorems through Lifting, Augmentation, and Synthesis of Data Xiaoyang Liu Kangjie Bao Jiashuo Zhang Yunqi Liu Yu Chen Yu Chen Yang Jiao Tao Luo AIMat 352 12 0 08 Feb 2025
RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation Sicheng Zhong Jiading Zhu Yifang Tian Xujie Si 269 0 0 07 Feb 2025
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning Yibo Yan Shen Wang Jiahao Huo Jingheng Ye Zhendong Chu Xuming Hu Philip S. Yu Daniel Schwalbe-Koda B. Selman Qingsong Wen LRM 506 26 0 05 Feb 2025
Automating Mathematical Proof Generation Using Large Language Model Agents and Knowledge Graphs Vincent Li Tim Knappe Yule Fu Kevin Han Kevin Zhu LRM 120 1 0 04 Feb 2025
Advanced Weakly-Supervised Formula Exploration for Neuro-Symbolic Mathematical Reasoning Yuxuan Wu Hideki Nakayama NAI 228 1 0 02 Feb 2025
Conversational Text Extraction with Large Language Models Using Retrieval-Augmented Systems Soham Roy Mitul Goswami Nisharg Nargund Suneeta Mohanty Prasant Kumar Pattnaik RALM 217 3 0 20 Jan 2025
Formal Mathematical Reasoning: A New Frontier in AI Kaiyu Yang Gabriel Poesia Jingxuan He Wenda Li Kristin Lauter Swarat Chaudhuri Dawn Song LRM AI4CE 390 64 0 20 Dec 2024
LLMs can Realize Combinatorial Creativity: Generating Creative Ideas via LLMs for Scientific Research Tianyang Gu Jingjin Wang Zhihao Zhang HaoHong Li LRM 305 10 0 18 Dec 2024
Towards Scientific Discovery with Generative AI: Progress, Opportunities, and ChallengesAAAI Conference on Artificial Intelligence (AAAI), 2024 Chandan K. Reddy Parshin Shojaee 291 26 0 16 Dec 2024
Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers Benedikt Stroebl Sayash Kapoor Arvind Narayanan LRM 501 42 0 26 Nov 2024
Aligning Generalisation Between Humans and Machines Filip Ilievski Barbara Hammer F. V. Harmelen Benjamin Paassen S. Saralajew ... Vered Shwartz Gabriella Skitalinskaya Clemens Stachl Gido M. van de Ven T. Villmann 649 5 0 23 Nov 2024
Formal Theorem Proving by Rewarding LLMs to Decompose Proofs Hierarchically Kefan Dong Arvind V. Mahankali Tengyu Ma ReLM LRM 276 11 0 04 Nov 2024
Next-Token Prediction Task Assumes Optimal Data Ordering for LLM Training in Proof Generation Chenyang An Shima Imani Feng Yao Chengyu Dong Ali Abbasi ... Samuel Buss Jingbo Shang Gayathri Mahalingam Pramod Sharma Maurice Diesendruck LRM 237 1 0 30 Oct 2024
Assured Automatic Programming via Large Language Models Martin Mirchev Andreea Costea Abhishek Kr Singh Abhik Roychoudhury 244 4 0 24 Oct 2024
ZIP-FIT: Embedding-Free Data Selection via Compression-Based Alignment Elyas Obbad Iddah Mlauzi Alycia Lee Rylan Schaeffer Kamal Obbad Suhana Bedi Sanmi Koyejo CVBM 281 0 0 23 Oct 2024
Learning Mathematical Rules with Large Language Models Antoine Gorceix Bastien Le Chenadec Ahmad Rammal N. Vadori Manuela Veloso 223 1 0 22 Oct 2024
Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence İlker Işık R. G. Cinbis Ebru Aydin Gol 410 0 0 22 Oct 2024
Pantograph: A Machine-to-Machine Interaction Interface for Advanced Theorem Proving, High Level Reasoning, and Data Extraction in Lean 4International Conference on Tools and Algorithms for Construction and Analysis of Systems (TACAS), 2024 Leni Aniva Chuyue Sun Alycia Lee Clark W. Barrett Sanmi Koyejo 231 9 0 21 Oct 2024
Alchemy: Amplifying Theorem-Proving Capability through Symbolic MutationInternational Conference on Learning Representations (ICLR), 2024 Shaonan Wu Shuai Lu Yeyun Gong Nan Duan Ping Wei AIMat 279 1 0 21 Oct 2024
Automated Proof Generation for Rust Code via Self-EvolutionInternational Conference on Learning Representations (ICLR), 2024 Tianyu Chen Shuai Lu Shan Lu Yeyun Gong Chenyuan Yang ... Peng Cheng Fan Yang Shuvendu Lahiri Tao Xie Lidong Zhou 311 18 0 21 Oct 2024
Think Thrice Before You Act: Progressive Thought Refinement in Large Language Models Chengyu Du Jinyi Han Yizhou Ying Aili Chen Qianyu He ... Haoran Guo Jiaqing Liang Zulong Chen Liangyue Li Yanghua Xiao KELM CLL LRM 206 5 0 17 Oct 2024
Proof Flow: Preliminary Study on Generative Flow Network Language Model Tuning for Formal Reasoning Matthew Ho Vincent Zhu Xiaoyin Chen Moksh Jain Nikolay Malkin Edwin Zhang LRM 162 5 0 17 Oct 2024
Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents Long Li Weiwen Xu Jiayan Guo Ruochen Zhao Xingxuan Li ... Ronghao Dang Deli Zhao Yu Rong Tian Feng Lidong Bing LRM AI4CE 234 56 0 17 Oct 2024
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital HardwareDesign, Automation and Test in Europe (DATE), 2024 Minwoo Kang Mingjie Liu Ghaith Bany Hamad Syed Suhaib Haoxing Ren LRM 111 14 0 15 Oct 2024
3D-Prover: Diversity Driven Theorem Proving With Determinantal Point Processes Sean Lamont Christian J. Walder Amir Dezfouli Paul Montague Michael Norrish 266 0 0 14 Oct 2024
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback Yongbin Li Miao Zheng Fan Yang Bin Cui Tengjiao Wang Xin Wu Guosheng Dong Wentao Zhang ALM 317 10 0 12 Oct 2024
Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning TasksInternational Conference on Learning Representations (ICLR), 2024 Rushang Karia Daniel Bramblett D. Dobhal Siddharth Srivastava ELM LRM 292 2 0 11 Oct 2024
LeanAgent: Lifelong Learning for Formal Theorem ProvingInternational Conference on Learning Representations (ICLR), 2024 Adarsh Kumarappan Mo Tiwari Peiyang Song Robert Joseph George Chaowei Xiao Anima Anandkumar CLL LLMAG LRM 486 11 0 08 Oct 2024
ImProver: Agent-Based Automated Proof OptimizationInternational Conference on Learning Representations (ICLR), 2024 Riyaz Ahuja Jeremy Avigad Prasad Tetali Sean Welleck LLMAG 266 3 0 07 Oct 2024