ChartLlama: A Multimodal LLM for Chart Understanding and Generation

27 November 2023

Papers citing "ChartLlama: A Multimodal LLM for Chart Understanding and Generation"

24 / 74 papers shown

Title
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond Pengyuan Lyu Yulin Li Hao Zhou Weihong Ma Xingyu Wan ... Liang Wu Chengquan Zhang Kun Yao Errui Ding Jingdong Wang 36 7 0 31 May 2024
ChartFormer: A Large Vision Language Model for Converting Chart Images into Tactile Accessible SVGs Omar Moured Sara Alzalabny Anas Osman Thorsten Schwarz Karin Muller Rainer Stiefelhagen 34 1 0 29 May 2024
Alt4Blind: A User Interface to Simplify Charts Alt-Text Creation Omar Moured Shahid Ali Farooqui Karin Muller Sharifeh Fadaeijouybari Thorsten Schwarz Mohammed Javed Rainer Stiefelhagen 16 1 0 29 May 2024
Automated Real-World Sustainability Data Generation from Images of Buildings Peter J Bentley Soo Ling Lim Rajat Mathur Siddhart Narang 21 1 0 28 May 2024
AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks Omar Moured Jiaming Zhang M. Sarfraz Rainer Stiefelhagen 29 1 0 22 May 2024
Exploring the Capability of LLMs in Performing Low-Level Visual Analytic Tasks on SVG Data Visualizations Zhongzhen Xu Emily Wall 38 9 0 29 Apr 2024
OneChart: Purify the Chart Structural Extraction via One Auxiliary Token Jinyue Chen Lingyu Kong Haoran Wei Chenglong Liu Zheng Ge Liang Zhao Jian‐Yuan Sun Chunrui Han Xiangyu Zhang 41 22 0 15 Apr 2024
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding Anwen Hu Haiyang Xu Jiabo Ye Mingshi Yan Liang Zhang ... Chen Li Ji Zhang Qin Jin Fei Huang Jingren Zhou VLM 45 104 0 19 Mar 2024
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models Kung-Hsiang Huang Hou Pong Chan Yi Ren Fung Haoyi Qiu Mingyang Zhou Shafiq R. Joty Shih-Fu Chang Heng Ji AI4TS 64 14 0 18 Mar 2024
ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning Ahmed Masry Mehrad Shahmohammadi Md. Rizwan Parvez Enamul Hoque Shafiq R. Joty 28 10 0 14 Mar 2024
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies Zhende Song Chenchen Wang Jiamu Sheng C. Zhang Gang Yu Jiayuan Fan Tao Chen VGen 25 18 0 03 Mar 2024
ChartReformer: Natural Language-Driven Chart Image Editing Pengyu Yan Mahesh Bhosale Jay Lal Bikhyat Adhikari David Doermann 19 6 0 01 Mar 2024
SIMPLOT: Enhancing Chart Question Answering by Distilling Essentials Wonjoong Kim S. Park Yeonjun In Seokwon Han Chanyoung Park LRM ReLM 32 3 0 22 Feb 2024
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning Renqiu Xia Bo-Wen Zhang Hancheng Ye Xiangchao Yan Qi Liu ... Min Dou Botian Shi Junchi Yan Junchi Yan Yu Qiao LRM 53 52 0 19 Feb 2024
SwarmBrain: Embodied agent for real-time strategy game StarCraft II via large language models Xiao Shao Weifu Jiang Fei Zuo Mengqing Liu LLMAG 26 6 0 31 Jan 2024
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning Fanqing Meng Wenqi Shao Quanfeng Lu Peng Gao Kaipeng Zhang Yu Qiao Ping Luo 27 45 0 04 Jan 2024
ChartBench: A Benchmark for Complex Visual Reasoning in Charts Zhengzhuo Xu Sinan Du Yiyan Qi Chengjin Xu Chun Yuan Jian Guo 33 33 0 26 Dec 2023
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning Kung-Hsiang Huang Mingyang Zhou Hou Pong Chan Yi Ren Fung Zhenhailong Wang Lingyu Zhang Shih-Fu Chang Heng Ji 16 33 0 15 Dec 2023
LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning Sijin Chen Xin Chen C. Zhang Mingsheng Li Gang Yu Hao Fei Hongyuan Zhu Jiayuan Fan Tao Chen MLLM 24 76 0 30 Nov 2023
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning Jun Chen Deyao Zhu Xiaoqian Shen Xiang Li Zechun Liu Pengchuan Zhang Raghuraman Krishnamoorthi Vikas Chandra Yunyang Xiong Mohamed Elhoseiny MLLM 157 280 0 14 Oct 2023
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models Yadong Lu Chunyuan Li Haotian Liu Jianwei Yang Jianfeng Gao Yelong Shen MLLM 97 31 0 18 Sep 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding Kenton Lee Mandar Joshi Iulia Turc Hexiang Hu Fangyu Liu Julian Martin Eisenschlos Urvashi Khandelwal Peter Shaw Ming-Wei Chang Kristina Toutanova CLIP VLM 154 259 0 07 Oct 2022
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 242 1,070 0 05 Oct 2022