ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning

19 March 2022

Papers citing "ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning"

50 / 82 papers shown

Title
InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts Minzhi Lin Tianchi Xie Mengchen Liu Yilin Ye C. L. Philip Chen Shixia Liu 24 0 0 25 May 2025
Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion Jacob A. Hansen Wei Lin Junmo Kang M. Jehanzeb Mirza Hongyin Luo Rogerio Feris Alan Ritter James R. Glass Leonid Karlinsky VLM 88 0 0 23 May 2025
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM Donghwan Chi Hyomin Kim Yoonjin Oh Yongjin Kim Donghoon Lee DaeJin Jo Jongmin Kim Junyeob Baek Sungjin Ahn Sungwoong Kim MLLM VLM 294 0 0 23 May 2025
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM Penghao Wu Lewei Lu Ziwei Liu 53 0 0 21 May 2025
Shadow-FT: Tuning Instruct via Base Taiqiang Wu Runming Yang Jiayi Li Pengfei Hu Ngai Wong Yujiu Yang 109 0 0 19 May 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Donglin Wang LRM 89 0 0 18 May 2025
LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? Maoyuan Ye Jing Zhang Juhua Liu Bo Du Dacheng Tao LRM 85 0 0 18 May 2025
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning Bonan li Zicheng Zhang Songhua Liu Weihao Yu Xinchao Wang VLM 60 0 0 17 May 2025
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning Yuqi Liu Tianyuan Qu Zhisheng Zhong Bohao Peng Shu Liu Bei Yu Jiaya Jia VLM LRM 82 2 0 17 May 2025
WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? An-Lan Wang Jingqun Tang Liao Lei Hao Feng Qi Liu ... Wen Liu Hao Liu Yang Liu Xiang Bai Can Huang 85 1 0 16 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities Wei Wei Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 163 0 0 05 May 2025
GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling Siqi Li Yufan Shen Xiangnan Chen Jiayi Chen Hengwei Ju ... Botian Shi Y. Liu Xinyu Cai Yu Qiao Yu Qiao VLM ELM 114 1 0 30 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 98 56 1 14 Apr 2025
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models Teppei Suzuki Keisuke Ozawa VLM 108 0 0 14 Apr 2025
MM-IFEngine: Towards Multimodal Instruction Following Shengyuan Ding Shenxi Wu Xiangyu Zhao Yuhang Zang Haodong Duan Xiaoyi Dong Pan Zhang Yuhang Cao Dahua Lin Jiaqi Wang OffRL 79 5 0 10 Apr 2025
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xinze Wang Zhiyong Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Qinghong Lin Furong Huang Lijuan Wang OODD ReLM LRM VLM 120 12 0 10 Apr 2025
OmniCaptioner: One Captioner to Rule Them All Yiting Lu Jiakang Yuan Zhen Li Jike Zhong Qi Qin ... Lei Bai Zhibo Chen Peng Gao Bo Zhang Peng Gao MLLM 97 1 0 09 Apr 2025
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering Ahmed Masry Mohammed Saidul Islam Mahir Ahmed Aayush Bajaj Firoz Kabir ... Mehrad Shahmohammadi Megh Thakkar Md. Rizwan Parvez E. Hoque Shafiq Joty ELM 70 2 0 07 Apr 2025
Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization Iñigo Pikabea Iñaki Lacunza Oriol Pareras Carlos Escolano Aitor Gonzalez-Agirre Javier Hernando Marta Villegas VLM 118 0 0 28 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 76 1 0 27 Mar 2025
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 148 0 0 26 Mar 2025
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping Weili Zeng Ziyuan Huang Kaixiang Ji Yichao Yan VLM 125 1 0 26 Mar 2025
DomainCQA: Crafting Expert-Level QA from Domain-Specific Charts Ling Zhong Yujing Lu Jing Yang Weiming Li Peng Wei Yongheng Wang Manni Duan Qing Zhang 99 2 0 25 Mar 2025
CoMP: Continual Multimodal Pre-training for Vision Foundation Models Yuxiao Chen L. Meng Wujian Peng Zuxuan Wu Yu-Gang Jiang VLM 126 1 0 24 Mar 2025
Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering Zixin Chen Sicheng Song Kashun Shum Yanna Lin Rui Sheng Huamin Qu 74 2 0 23 Mar 2025
VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan Zhi Rui Tam Ya-Ting Pai Yen-Wei Lee Yun-Nung Chen CoGe 118 0 0 13 Mar 2025
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis Letian Zhang Quan Cui Bingchen Zhao Cheng Yang MLLM SyDa 63 1 0 11 Mar 2025
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 90 85 0 09 Mar 2025
A Token-level Text Image Foundation Model for Document Understanding Tongkun Guan Zining Wang Pei Fu Zhengtao Guo Wei Shen ... Chen Duan Hao Sun Qianyi Jiang Junfeng Luo Xiaokang Yang VLM 68 1 0 04 Mar 2025
Protecting multimodal large language models against misleading visualizations Jonathan Tonglet Tinne Tuytelaars Marie-Francine Moens Iryna Gurevych 95 2 0 27 Feb 2025
Investigating and Enhancing Vision-Audio Capability in Omnimodal Large Language Models Rui Hu Delai Qiu Shuyu Wei J.N. Zhang Yining Wang Shengping Liu Jitao Sang AuLLM VLM 82 0 0 27 Feb 2025
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation Yue Yang Ajay Patel Matt Deitke Tanmay Gupta Luca Weihs ... Mark Yatskar Chris Callison-Burch Ranjay Krishna Aniruddha Kembhavi Christopher Clark SyDa 146 2 0 20 Feb 2025
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding Kung-Hsiang Huang Can Qin Haoyi Qiu Philippe Laban Shafiq Joty Caiming Xiong Chien-Sheng Wu VLM 205 4 0 17 Feb 2025
Boosting Multimodal Reasoning with Automated Structured Thinking Jinyang Wu Mingkuan Feng Shuai Zhang Ruihan Jin Feihu Che Zengqi Wen J. Tao Jianhua Tao LRM 130 11 0 04 Feb 2025
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation Bin Zhu Hui yan Qi Yinxuan Gui Jingjing Chen Chong-Wah Ngo Ee-Peng Lim 306 1 0 31 Jan 2025
PatentLMM: Large Multimodal Model for Generating Descriptions for Patent Figures Shivalika Singh Nakul Sharma Manish Gupta Anand Mishra 82 1 0 28 Jan 2025
InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model Yuhang Zang Xiaoyi Dong Pan Zhang Yuhang Cao Ziyu Liu ... Haodong Duan Wentao Zhang Kai Chen Dahua Lin Jiaqi Wang VLM 141 21 0 21 Jan 2025
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation Xuanle Zhao Xianzhen Luo Qi Shi Chong Chen Shuo Wang Wanxiang Che Zhiyuan Liu MLLM 69 9 0 11 Jan 2025
MM-GEN: Enhancing Task Performance Through Targeted Multimodal Data Curation S. Joshi Besmira Nushi Vidhisha Balachandran Varun Chandrasekaran Vibhav Vineet Neel Joshi Baharan Mirzasoleiman MLLM VLM 103 0 0 07 Jan 2025
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation Yuhui Zhang Yuchang Su Yiming Liu Xiaohan Wang James Burgess ... Josiah Aklilu Alejandro Lozano Anjiang Wei Ludwig Schmidt Serena Yeung-Levy 99 4 0 06 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 188 51 0 03 Jan 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 108 24 0 03 Jan 2025
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao Shiqian Su X. Zhu Chenyu Zhang Zhe Chen ... Wenhai Wang Lewei Lu Gao Huang Yu Qiao Jifeng Dai MLLM VLM 156 2 0 20 Dec 2024
Chimera: Improving Generalist Model with Domain-Specific Experts Tianshuo Peng Mingxing Li Hongbin Zhou Renqiu Xia Renrui Zhang ... Aojun Zhou Botian Shi Tao Chen Bo Zhang Xiangyu Yue 124 5 0 08 Dec 2024
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization Weiyun Wang Zhe Chen Wenhai Wang Yue Cao Yangzhou Liu ... Jinguo Zhu X. Zhu Lewei Lu Yu Qiao Jifeng Dai LRM 87 65 1 15 Nov 2024
TurtleBench: A Visual Programming Benchmark in Turtle Geometry Sina Rismanchian Yasaman Razeghi Sameer Singh Shayan Doroudi 75 1 0 31 Oct 2024
Bongard in Wonderland: Visual Puzzles that Still Make AI Go Mad? Antonia Wüst Tim Nelson Tobiasch Lukas Helff Inga Ibs Wolfgang Stammer Devendra Singh Dhami Constantin Rothkopf Kristian Kersting CoGe ReLM VLM LRM 115 1 0 25 Oct 2024
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang ... Yuhang Cao Zeang Sheng Jiaqi Wang Feng Wu Dahua Lin VLM 66 35 0 22 Oct 2024
MultiChartQA: Benchmarking Vision-Language Models on Multi-Chart Problems Zifeng Zhu Mengzhao Jia Zizhuo Zhang Lang Li Meng Jiang LRM 80 4 0 18 Oct 2024
3DArticCyclists: Generating Synthetic Articulated 8D Pose-Controllable Cyclist Data for Computer Vision Applications Eduardo R. Corral-Soto Yang Liu Tongtong Cao Y. Ren Liu Bingbing 79 5 0 14 Oct 2024