IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning

25 October 2021

Xiaodan Liang

Papers citing "IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning"

45 / 145 papers shown

Title
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation Kohei Uehara Nabarun Goswami Hanqin Wang Toshiaki Baba Kohtaro Tanaka ... Takagi Naoya Ryo Umagami Yingyi Wen Tanachai Anakewat Tatsuya Harada LRM 21 2 0 18 Jan 2024
Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends Yunshi Lan Xinyuan Li Hanyue Du Xuesong Lu Ming Gao Weining Qian Aoying Zhou 27 1 0 15 Jan 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 38 29 0 19 Dec 2023
Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning Yunhao Gou Zhili Liu Kai Chen Lanqing Hong Hang Xu Aoxue Li Dit-Yan Yeung James T. Kwok Yu Zhang MoE MLLM VLM 34 60 0 19 Dec 2023
Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in Language Models Liqi He Zuchao Li Xiantao Cai Ping Wang LRM 25 17 0 14 Dec 2023
GlitchBench: Can large multimodal models detect video game glitches? Mohammad Reza Taesiri Tianjun Feng Anh Nguyen C. Bezemer MLLM VLM LRM 19 9 0 08 Dec 2023
LANS: A Layout-Aware Neural Solver for Plane Geometry Problem Zhong-Zhi Li Ming-Liang Zhang Fei Yin Cheng-Lin Liu 11 11 0 25 Nov 2023
Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training Cheng Tan Jingxuan Wei Zhangyang Gao Linzhuang Sun Siyuan Li Ruifeng Guo Xihong Yang Stan Z. Li LRM 14 7 0 23 Nov 2023
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge Gongwei Chen Leyang Shen Rui Shao Xiang Deng Liqiang Nie VLM MLLM 56 38 0 20 Nov 2023
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models Ziyi Lin Chris Liu Renrui Zhang Peng Gao Longtian Qiu ... Siyuan Huang Yichi Zhang Xuming He Hongsheng Li Yu Qiao MLLM VLM 11 206 0 13 Nov 2023
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities Md Farhan Ishmam Md Sakib Hossain Shovon M. F. Mridha Nilanjan Dey 35 35 0 01 Nov 2023
Language Guided Visual Question Answering: Elevate Your Multimodal Language Model Using Knowledge-Enriched Prompts Deepanway Ghosal Navonil Majumder Roy Ka-Wei Lee Rada Mihalcea Soujanya Poria 22 7 0 31 Oct 2023
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond Zhecan Wang Long Chen Haoxuan You Keyang Xu Yicheng He Wenhao Li Noal Codella Kai-Wei Chang Shih-Fu Chang 10 3 0 23 Oct 2023
Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models Mingwei Zhu Leigang Sha Yu Shu Kangjia Zhao Tiancheng Zhao Jianwei Yin LRM 20 0 0 20 Oct 2023
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning Jun Chen Deyao Zhu Xiaoqian Shen Xiang Li Zechun Liu Pengchuan Zhang Raghuraman Krishnamoorthi Vikas Chandra Yunyang Xiong Mohamed Elhoseiny MLLM 154 280 0 14 Oct 2023
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts Pan Lu Hritik Bansal Tony Xia Jiacheng Liu Chun-yue Li Hannaneh Hajishirzi Hao Cheng Kai-Wei Chang Michel Galley Jianfeng Gao LRM MLLM 25 492 0 03 Oct 2023
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs Shiyu Xuan Qingpei Guo Ming Yang Shiliang Zhang MLLM ObjD 13 38 0 01 Oct 2023
NLPBench: Evaluating Large Language Models on Solving NLP Problems Linxin Song Jieyu Zhang Lechao Cheng Pengyuan Zhou Tianyi Zhou Irene Z Li ELM LM&MA LRM 23 10 0 27 Sep 2023
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Jiaqi Wang MLLM 52 222 0 26 Sep 2023
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang MLLM VLM 24 132 0 14 Sep 2023
ImageBind-LLM: Multi-modality Instruction Tuning Jiaming Han Renrui Zhang Wenqi Shao Peng Gao Peng-Tao Xu ... Yafei Wen Xiaoxin Chen Xiangyu Yue Hongsheng Li Yu Qiao MLLM 16 115 0 07 Sep 2023
InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 Lai Wei Zihao Jiang Weiran Huang Lichao Sun VLM MLLM 15 55 0 23 Aug 2023
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions Wenbo Hu Y. Xu Y. Li W. Li Z. Chen Z. Tu MLLM VLM 22 120 0 19 Aug 2023
VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use Yonatan Bitton Hritik Bansal Jack Hessel Rulin Shao Wanrong Zhu Anas Awadalla Josh Gardner Rohan Taori L. Schimdt VLM 29 76 0 12 Aug 2023
Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals Fanglong Yao Changyuan Tian Jintao Liu Zequn Zhang Qing Liu Li Jin Shuchao Li Xiaoyu Li Xian Sun ReLM LRM 6 15 0 11 Aug 2023
Tiny LVLM-eHub: Early Multimodal Experiments with Bard Wenqi Shao Yutao Hu Peng Gao Meng Lei Kaipeng Zhang ... Peng-Tao Xu Siyuan Huang Hongsheng Li Yuning Qiao Ping Luo VLM MLLM 22 2 0 07 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang F. Khan VLM 13 116 0 25 Jul 2023
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework Jingxuan Wei Cheng Tan Zhangyang Gao Linzhuang Sun Siyuan Li Bihui Yu R. Guo Stan Z. Li LRM 16 7 0 24 Jul 2023
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models Xiaoxuan Wang Ziniu Hu Pan Lu Yanqiao Zhu Jieyu Zhang Satyen Subramaniam Arjun R. Loomba Shichang Zhang Yizhou Sun Wei Wang ELM LRM 17 42 0 20 Jul 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models Peng-Tao Xu Wenqi Shao Kaipeng Zhang Peng Gao Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 23 158 0 15 Jun 2023
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models Yao Yao Z. Li Hai Zhao ReLM LRM 9 14 0 26 May 2023
TheoremQA: A Theorem-driven Question Answering dataset Wenhu Chen Ming Yin Max W.F. Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia AIMat 11 117 0 21 May 2023
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 15 1,886 0 11 May 2023
T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering Lei Wang Yilang Hu Jiabang He Xingdong Xu Ning Liu Hui-juan Liu Hengtao Shen LRM MLLM 13 41 0 05 May 2023
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models Pan Lu Baolin Peng Hao Cheng Michel Galley Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Jianfeng Gao KELM MLLM LRM 34 293 0 19 Apr 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 23 736 0 28 Mar 2023
Benchmarks for Automated Commonsense Reasoning: A Survey E. Davis ELM LRM 6 56 0 09 Feb 2023
Multimodal Chain-of-Thought Reasoning in Language Models Zhuosheng Zhang Aston Zhang Mu Li Hai Zhao George Karypis Alexander J. Smola LRM 16 388 0 02 Feb 2023
A Survey of Deep Learning for Mathematical Reasoning Pan Lu Liang Qiu Wenhao Yu Sean Welleck Kai-Wei Chang ReLM LRM 32 137 0 20 Dec 2022
UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression Jiaqi Chen Tong Li Jinghui Qin Pan Lu Liang Lin Chongyu Chen Xiaodan Liang AIMat LRM 30 89 0 06 Dec 2022
MapQA: A Dataset for Question Answering on Choropleth Maps Shuaichen Chang David Palzer Jialin Li Eric Fosler-Lussier N. Xiao 11 39 0 15 Nov 2022
Lila: A Unified Benchmark for Mathematical Reasoning Swaroop Mishra Matthew Finlayson Pan Lu Leonard Tang Sean Welleck ... Tanmay Rajpurohit Oyvind Tafjord Ashish Sabharwal Peter Clark A. Kalyan ELM AIMat ReLM LRM 26 0 0 31 Oct 2022
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning Pan Lu Liang Qiu Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Tanmay Rajpurohit Peter Clark A. Kalyan ReLM LRM 18 267 0 29 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 198 1,089 0 20 Sep 2022