CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

29 June 2023

Papers citing "CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?"

39 / 39 papers shown

Title
Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models X. S. Hu Zhanchao Zhou Ruiqi Liang Zehuan Li Wei Wu Jianguo Li 80 0 0 28 Nov 2025
APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training Jiarui Qin Yunjia Xi Junjie Huang Renting Rui D. Yin Weiwen Liu Yong Yu W. Zhang Xing Sun 68 0 0 28 Oct 2025
Knocking-Heads Attention Zhanchao Zhou Xiaodong Chen Haoxing Chen Zhenzhong Lan Jianguo Li 72 0 0 27 Oct 2025
MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics Jiapeng Wang Changxin Tian Kunlong Chen Ziqi Liu Jiaxin Mao Wayne Xin Zhao Zhiqiang Zhang Jun Zhou 76 0 0 10 Oct 2025
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR Fanding Huang Guanbo Huang Xiao Fan Yi He Xiao Liang Xiao Chen Qinting Jiang Faisal Nadeem Khan Jingyan Jiang Zhi Wang OffRL 158 0 0 28 Sep 2025
SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control Quanfeng Lu Zhantao Ma Shuai Zhong Jin Wang Dahai Yu Michael K. Ng Ping Luo 172 0 0 27 Aug 2025
Kimi K2: Open Agentic Intelligence Kimi Team Yifan Bai Yiping Bao Guanduo Chen Jiahao Chen ... Qifeng Teng Chensi Wang Dinglu Wang Feng Wang Haiming Wang MoE VLM LRM 140 62 0 28 Jul 2025
JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models Yifan Hao Fangning Chao Yaqian Hao Zhaojun Cui Huan Bai Haiyu Zhang Yankai Liu Chao Deng Junlan Feng LRM ELM 124 1 0 26 Jul 2025
Innovator: Scientific Continued Pretraining with Fine-grained MoE Upcycling Ning Liao Xiaoxing Wang Zehao Lin Weiyang Guo Feng Hong ... Junchi Yan Zhiyu Li Feiyu Xiong Yanfeng Wang Linfeng Zhang CLL 183 1 0 24 Jul 2025
Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models Changxin Tian Kunlong Chen Jia-Ling Liu Ziqi Liu Zhiqiang Zhang Jun Zhou MoE 297 7 0 23 Jul 2025
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training Changxin Tian Jiapeng Wang Qian Zhao Kunlong Chen Jia-Ling Liu Ziqi Liu Jiaxin Mao Wayne Xin Zhao Zhiqiang Zhang Jun Zhou MoMe CLL 212 5 0 23 Jul 2025
Orthogonal Finetuning Made Scalable Zeju Qiu Weiyang Liu Adrian Weller Bernhard Schölkopf 161 1 0 24 Jun 2025
A Survey on Large Language Models for Mathematical Reasoning Peng-Yuan Wang Tian-Shuo Liu Chenyang Wang Yi-Di Wang Shu Yan ... Xu-Hui Liu Xin-Wei Chen Jia-Cheng Xu Ziniu Li Yang Yu LRM 216 14 0 10 Jun 2025
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning Ziyin Zhang Jiahao Xu Zhiwei He Tian Liang Qiuzhi Liu ... Zhuosheng Zhang Rui Wang Zhaopeng Tu Haitao Mi Dong Yu OffRL LRM 282 9 0 29 May 2025
Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought Tencent Hunyuan Team Ao Liu Botong Zhou Can Xu Chayse Zhou ... Bingxin Qu Bolin Ni Boyu Wu Chen Li Cheng-peng Jiang MoE LRM AI4CE 391 13 0 21 May 2025
EmbedAgent: Benchmarking Large Language Models in Embedded System Development Ruiyang Xu Jialun Cao Mingyuan Wu Wenliang Zhong Yaojie Lu Ben He Xianpei Han Shing-Chi Cheung Le Sun RALM 160 0 0 19 Apr 2025
A Survey on Mathematical Reasoning and Optimization with Large Language Models Ali Forootani OffRL LRM AI4CE 256 10 0 22 Mar 2025
Key, Value, Compress: A Systematic Exploration of KV Cache Compression TechniquesIEEE Custom Integrated Circuits Conference (CICC), 2025 Neusha Javidnia B. Rouhani F. Koushanfar 1.1K 3 0 14 Mar 2025
CMCTS: A Constrained Monte Carlo Tree Search Framework for Mathematical Reasoning in Large Language Model Qingwen Lin Boyan Xu Zijian Li Zijian Li Keli Zhang Ruichu Cai Ruichu Cai LRM 280 4 0 16 Feb 2025
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent Xingwu Sun Yanfeng Chen Yanwen Huang Ruobing Xie Jiaqi Zhu ... Zhanhui Kang Yong Yang Yuhong Liu Di Wang Jie Jiang MoE ALM ELM 428 68 0 04 Nov 2024
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement An Yang Beichen Zhang Binyuan Hui Bofei Gao Bowen Yu ... Mingfeng Xue Runji Lin Tianyu Liu Xingzhang Ren Zhenru Zhang OSLM LRM 339 660 0 18 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Zhiyong Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 380 16 0 04 Sep 2024
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models Dian Yu Baolin Peng Ye Tian Linfeng Song Haitao Mi Dong Yu ALM LRM 172 4 0 28 Aug 2024
Leveraging Web-Crawled Data for High-Quality Fine-TuningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Jing Zhou Chenglin Jiang Wei Shen Xiao Zhou Xiaonan He ALM 150 5 0 15 Aug 2024
Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data Haolong Li Yu Ma Yinqi Zhang Chen Ye Jie Chen ReLM LRM 175 5 0 04 Jun 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang D. Yin Jun Xu Jirong Wen LLMAG 268 202 0 28 May 2024
Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song Ling Shi Kailong Wang Yuekang Li Yang Liu Haoyu Wang 240 28 0 15 Apr 2024
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking Xiao Chen Sihang Zhou K. Liang Xinwang Liu ReLM LRM 262 12 0 14 Apr 2024
OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety Chuang Liu Linhao Yu Jiaxuan Li Renren Jin Yufei Huang ... Tao Liu Jinwang Song Hongying Zan Sun Li Deyi Xiong ELM 291 13 0 18 Mar 2024
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models Yan Liu Renren Jin Ling Shi Zheng Yao Deyi Xiong LRM 155 6 0 12 Mar 2024
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems Chaoqun He Renjie Luo Yuzhuo Bai Shengding Hu Zhen Leng Thai ... Yuxiang Zhang Jie Liu Lei Qi Zhiyuan Liu Maosong Sun ELM AIMat 347 631 0 21 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 1.1K 3,553 0 05 Feb 2024
Large Language Models for Mathematical Reasoning: Progresses and Challenges Janice Ahn Rishu Verma Renze Lou Di Liu Rui Zhang Wenpeng Yin LRM 328 258 0 31 Jan 2024
Visualization Generation with Large Language Models: An Evaluation Guozheng Li Xinyu Wang Gerile Aodeng Shunyuan Zheng Yu Zhang Chuangxin Ou Song Wang Chi Harold Liu 245 44 0 20 Jan 2024
KwaiYiiMath: Technical Report Jia-Yi Fu Lei Lin Xiaoyang Gao Pengli Liu Zhengzong Chen ... Zijia Lin Fuzheng Zhang Zhongyuan Wang Chen Zhang Kun Gai LRM ReLM RALM 242 3 0 11 Oct 2023
Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench Shu Yang Wenxuan Wang E. Li Man Ho Lam Shujie Ren Youliang Yuan Wenxiang Jiao Zhaopeng Tu Michael R. Lyu LM&MA AI4MH ALM 224 33 0 02 Oct 2023
A Fast Optimization View: Reformulating Single Layer Attention in LLM Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time Yeqi Gao Zhao Song Weixin Wang Junze Yin 250 30 0 14 Sep 2023
LogGPT: Exploring ChatGPT for Log-Based Anomaly Detection Jiaxing Qi Shaohan Huang Zhongzhi Luan Carol J. Fung Hailong Yang D. Qian 138 54 0 03 Sep 2023
A Survey on Evaluation of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023 Yu-Chu Chang Xu Wang Yongfeng Zhang Yuanyi Wu Linyi Yang ... Yue Zhang Yi-Ju Chang Philip S. Yu Qian Yang Xingxu Xie ELM LM&MA ALM 676 2,654 0 06 Jul 2023