CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for
Foundation Models

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models

28 June 2024

Zhong-Zhi Li

Ming-Liang Zhang

Zhen-Ru Pan

Jian Xu

Cheng-Lin Liu

Papers citing "CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models"

9 / 9 papers shown

Title
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 27 0 0 20 Apr 2025
StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error S. M. I. Simon X. Yang C. Wang Yidong Wang Xiaotao Gu Minlie Huang J. Tang LRM LLMAG 59 0 0 13 Mar 2025
MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts P. Wang Zhongzhi Li Fei Yin Dekang Ran Chenglin Liu Cheng-Lin Liu LRM 42 3 0 28 Feb 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 86 11 0 06 Jan 2025
Context-DPO: Aligning Language Models for Context-Faithfulness Baolong Bi Shaohan Huang Y. Wang Tianchi Yang Zihan Zhang ... Furu Wei Weiwei Deng Feng Sun Qi Zhang Shenghua Liu 111 8 0 18 Dec 2024
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection Yibo Yan Shen Wang Jiahao Huo Hang Li B. Li ... Kun Wang Hui Xiong Philip S. Yu Xuming Hu Qingsong Wen LRM 28 13 0 06 Oct 2024
HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Ruibin Yuan Xueqi Cheng 33 4 0 03 Oct 2024
SLANG: New Concept Comprehension of Large Language Models Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Xueqi Chen KELM 30 5 0 23 Jan 2024
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 207 1,101 0 20 Sep 2022