Title
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking Runquan Gui Z. Wang J. Wang Chi Ma Huiling Zhen M. Yuan Jianye Hao Defu Lian Enhong Chen Feng Wu LRM 21 0 0 05 May 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Z. Liu Y. Wang Haofu Qian OffRL AI4TS VLM 61 0 0 28 Apr 2025
Meta-Thinking in LLMs via Multi-Agent Reinforcement Learning: A Survey Ahsan Bilal Muhammad Ahmed Mohsin Muhammad Umer Muhammad Awais Khan Bangash Muhammad Ali Jamshed LLMAG LRM AI4CE 33 0 0 20 Apr 2025
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models Xiao Pu Michael Stephen Saxon Wenyue Hua William Yang Wang LRM 19 0 0 17 Apr 2025
Memorization vs. Reasoning: Updating LLMs with New Knowledge Aochong Oliver Li Tanya Goyal KELM 38 0 0 16 Apr 2025
Efficient Reasoning Models: A Survey Sicheng Feng Gongfan Fang Xinyin Ma Xinchao Wang ReLM LRM 50 0 0 15 Apr 2025
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? Daniil Larionov Sotaro Takeshita Ran Zhang Yanran Chen Christoph Leiter Zhipin Wang Christian Greisinger Steffen Eger ReLM ELM LRM 59 0 0 10 Apr 2025
ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs Gejian Zhao Hanzhou Wu Xinpeng Zhang Athanasios V. Vasilakos LRM 23 1 0 08 Apr 2025
The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning T. Zheng Yixiang Chen Chengxi Li Chunyang Li Qing Zong Haochen Shi Baixuan Xu Y. Song Ginny Y. Wong Simon See LRM 19 0 0 07 Apr 2025
Hawkeye:Efficient Reasoning with Model Collaboration Jianshu She Z. Li Zhemin Huang Qi Li Peiran Xu Haonan Li Qirong Ho LRM 45 0 0 01 Apr 2025
Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models Irtaza Khalid Amir Masoud Nourollah Steven Schockaert LRM 29 0 0 30 Mar 2025
Efficient Inference for Large Reasoning Models: A Survey Y. Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi LLMAG LRM 48 7 0 29 Mar 2025
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond Xiaoye Qu Yafu Li Zhaochen Su Weigao Sun Jianhao Yan ... Chaochao Lu Yue Zhang Xian-Sheng Hua Bowen Zhou Yu Cheng ReLM OffRL LRM 76 11 0 27 Mar 2025
Entropy-based Exploration Conduction for Multi-step Reasoning Jinghan Zhang Xiting Wang Fengran Mo Yeyang Zhou Wanfu Gao Kunpeng Liu LRM 43 1 0 20 Mar 2025
The KoLMogorov Test: Compression by Code Generation Ori Yoran Kunhao Zheng Fabian Gloeckle Jonas Gehring Gabriel Synnaeve Taco Cohen 50 1 0 18 Mar 2025
MetaScale: Test-Time Scaling with Evolving Meta-Thoughts Qin Liu Wenxuan Zhou Nan Xu James Y. Huang Fei-Yue Wang Sheng Zhang Hoifung Poon M. Chen LLMAG ReLM AI4Cl LRM 79 1 0 17 Mar 2025
Policy Frameworks for Transparent Chain-of-Thought Reasoning in Large Language Models Yihang Chen Haikang Deng Kaiqiao Han Qingyue Zhao LRM 39 0 0 14 Mar 2025
V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning Zixu Cheng Jian Hu Ziquan Liu Chenyang Si Wei Li Shaogang Gong LRM 56 2 0 14 Mar 2025
Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More Arvid Frydenlund LRM 39 0 0 13 Mar 2025
Development and Enhancement of Text-to-Image Diffusion Models Rajdeep Roshan Sahu VLM 50 0 0 07 Mar 2025
Improving LLM-as-a-Judge Inference with the Judgment Distribution Victor Wang Michael J.Q. Zhang Eunsol Choi 44 0 0 04 Mar 2025
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models Zhifei Xie Mingbao Lin Z. Liu Pengcheng Wu Shuicheng Yan Chunyan Miao AuLLM OffRL LRM 64 5 0 04 Mar 2025
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision Dawei Zhu Xiyu Wei Guangxiang Zhao Wenhao Wu Haosheng Zou Junfeng Ran Xun Wang Lin Sun Xiangzheng Zhang Sujian Li LRM 49 0 0 28 Feb 2025
Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs Jungsoo Park Junmo Kang Gabriel Stanovsky Alan Ritter 41 0 0 26 Feb 2025
Unveiling and Causalizing CoT: A Causal Pespective Jiarun Fu LiZhong Ding Hao Li P. Li Qiuning Wei Xu Chen LRM 67 0 0 25 Feb 2025
TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning Frederikus Hudi Genta Indra Winata Ruochen Zhang Alham Fikri Aji ReLM LRM 73 2 0 25 Feb 2025
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models Jen-Tse Huang Dasen Dai Jen-Yuan Huang Youliang Yuan Xiaoyuan Liu Wenxuan Wang Wenxiang Jiao Pinjia He Zhaopeng Tu LRM 41 0 0 23 Feb 2025
DISC: Dynamic Decomposition Improves LLM Inference Scaling Jonathan Light Wei Cheng Wu Yue Masafumi Oyamada Mengdi Wang Santiago Paternain Haifeng Chen ReLM LRM 48 1 0 23 Feb 2025
Beyond Pattern Recognition: Probing Mental Representations of LMs Moritz Miller Kumar Shridhar ReLM LRM 38 0 0 23 Feb 2025
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation Y. Yang Ajay Patel Matt Deitke Tanmay Gupta Luca Weihs ... Mark Yatskar Chris Callison-Burch Ranjay Krishna Aniruddha Kembhavi Christopher Clark SyDa 56 1 0 21 Feb 2025
Improving Value-based Process Verifier via Structural Prior Injection Zetian Sun Dongfang Li Baotian Hu Jun Yu Min-Ling Zhang 26 0 0 21 Feb 2025
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs Yige Xu Xu Guo Zhiwei Zeng Chunyan Miao LLMAG CLL LRM 45 9 0 17 Feb 2025
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models Jongho Kim Seung-won Hwang LRM AI4CE 42 0 0 17 Feb 2025
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception Shiyu Ni Keping Bi J. Guo Lulu Yu Baolong Bi Xueqi Cheng 38 2 0 17 Feb 2025
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency Dongzhi Jiang Renrui Zhang Ziyu Guo Yanwei Li Yu Qi ... Shen Yan Bo Zhang Chaoyou Fu Peng Gao Hongsheng Li MLLM LRM 71 21 0 13 Feb 2025
CoT-Valve: Length-Compressible Chain-of-Thought Tuning Xinyin Ma Guangnian Wan Runpeng Yu Gongfan Fang Xinchao Wang LRM 59 19 0 13 Feb 2025
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics Ruilin Luo Zhuofan Zheng Yifan Wang Yiyao Yu Xinzhe Ni Zicheng Lin Jin Zeng Yujiu Yang LRM 40 12 0 08 Jan 2025
Understand, Solve and Translate: Bridging the Multilingual Mathematical Reasoning Gap Hyunwoo Ko Guijin Son Dasol Choi RALM LRM 48 7 0 05 Jan 2025
A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls Sheikh Shafayat Dongkeun Yoon Woori Jang Jiwoo Choi Alice H. Oh Seohyon Jung 81 1 0 03 Jan 2025
Chumor 2.0: Towards Benchmarking Chinese Humor Understanding Ruiqi He Yushu He Longju Bai Jiarui Liu Zhenjie Sun Zenghao Tang He Wang Hanchen Xia Rada Mihalcea Naihao Deng 71 1 0 23 Dec 2024
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge Angelika Romanou Negar Foroutan Anna Sotnikova Zeming Chen Sree Harsha Nelaturu ... Mike Zhang Imanol Schlag Marzieh Fadaee Sara Hooker Antoine Bosselut ELM 78 5 0 29 Nov 2024
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS Jinyang Wu Mingkuan Feng Shuai Zhang Feihu Che Zengqi Wen J. Tao ReLM LRM 86 1 0 27 Nov 2024
$The Two-Hop Curse: LLMs trained on A$\rightarrow$B, B$\rightarrow$C fail to learn A$\rightarrow$C$ The Two-Hop Curse: LLMs trained on A $\rightarrow$ B, B $\rightarrow$ C fail to learn A $\rightarrow$ C Mikita Balesni Tomek Korbak Owain Evans ReLM LRM 70 0 0 25 Nov 2024
Reducing Reasoning Costs: The Path of Optimization for Chain of Thought via Sparse Attention Mechanism Libo Wang LRM AI4CE 37 3 0 14 Nov 2024
A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization Haoxin Liu Chenghao Liu B. Prakash AI4TS LRM 83 5 0 09 Nov 2024
Blind Spot Navigation in LLM Reasoning with Thought Space Explorer Jinghan Zhang Fengran Mo Xiting Wang Kunpeng Liu LM&Ro LRM 44 1 0 31 Oct 2024
Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach Qingchuan Li Jiatong Li Tongxuan Liu Yuting Zeng Mingyue Cheng Weizhe Huang Qi Liu LRM AI4CE 26 1 0 29 Oct 2024
Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse Ryan Liu Jiayi Geng Addison J. Wu Ilia Sucholutsky Tania Lombrozo Thomas L. Griffiths ReLM LRM 52 19 0 27 Oct 2024
Self-Explained Keywords Empower Large Language Models for Code Generation Lishui Fan Mouxiang Chen Zhongxin Liu 29 1 0 21 Oct 2024
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology Wei Xie Shuoyoucheng Ma Zhenhua Wang Enze Wang Kai Chen Xiaobing Sun Baosheng Wang LRM 26 1 0 19 Oct 2024