A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual
Question Answering

v1v2 (latest)

A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering

13 November 2023

Baotian Hu

Chenyang Lyu

Min Zhang

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering"

17 / 17 papers shown

Title
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic ManipulationNeural Information Processing Systems (NeurIPS), 2024 Jianchao Tan Pengzhen Ren Bingqian Lin Junfan Lin Shikui Ma Hang Xu Xiaodan Liang 259 5 0 14 Oct 2024
Explore the Hallucination on Low-level Perception for MLLMsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Yinan Sun Zicheng Zhang H. Wu Xiaohong Liu Weisi Lin Guangtao Zhai Xiongkuo Min 165 3 0 15 Sep 2024
VideoVista: A Versatile Benchmark for Video Understanding and Reasoning Yunxin Li Xinyu Chen Baotian Hu Longyue Wang Haoyuan Shi Min Zhang MLLM LRM 341 57 0 17 Jun 2024
INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance Chenwei Lin Hanjia Lyu Xian Xu Jiebo Luo 124 4 0 13 Jun 2024
An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging Sulaiman Khan Md. Rafiul Biswas Alina Murad Hazrat Ali Zubair Shah 153 6 0 02 Jun 2024
Reverse Image Retrieval Cues Parametric Memory in Multimodal LLMs Jialiang Xu Michael Moor J. Leskovec 122 7 0 29 May 2024
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of ExpertsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Yunxin Li Shenyuan Jiang Baotian Hu Longyue Wang Wanqi Zhong Tong Lu Lin Ma Min Zhang MoE 203 89 0 18 May 2024
VisionGraph: Leveraging Large Multimodal Models for Graph Theory Problems in Visual Context Yunxin Li Baotian Hu Haoyuan Shi Wei Wang Longyue Wang Min Zhang LRM 122 25 0 08 May 2024
Comp4D: LLM-Guided Compositional 4D Scene Generation Dejia Xu Hanwen Liang N. Bhatt Hezhen Hu Hanxue Liang Konstantinos N. Plataniotis Zinan Lin 170 40 0 25 Mar 2024
Benchmarking LLMs via Uncertainty QuantificationNeural Information Processing Systems (NeurIPS), 2024 Fanghua Ye Mingming Yang Jianhui Pang Longyue Wang Derek F. Wong Emine Yilmaz Shuming Shi Zhaopeng Tu ELM 520 99 0 23 Jan 2024
DrugAssist: A Large Language Model for Molecule Optimization Geyan Ye Xibao Cai Houtim Lai Xing Wang Junhong Huang Longyue Wang Wei Liu Xian Zeng 199 59 0 28 Dec 2023
An Evaluation of GPT-4V and Gemini in Online VQA Xiyang Dai Chongyan Chen Danna Gurari MLLM 249 8 0 17 Dec 2023
Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models Bingshuai Liu Chenyang Lyu Zijun Min Zhanyu Wang Jinsong Su Longyue Wang LRM 223 10 0 04 Dec 2023
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs Yunxin Li Baotian Hu Wei Wang Xiaochun Cao Min Zhang 112 6 0 27 Nov 2023
A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical Image AnalysismedRxiv (medRxiv), 2023 Yingshu Li Yunyi Liu Zhanyu Wang Xinyu Liang Lei Wang Lingqiao Liu Leyang Cui Zhaopeng Tu Longyue Wang Luping Zhou ELM LM&MA 260 0 0 31 Oct 2023
LMEye: An Interactive Perception Network for Large Language ModelsIEEE transactions on multimedia (IEEE TMM), 2023 Yunxin Li Baotian Hu Xinyu Chen Lin Ma Yong-mei Xu Hao Fei MLLM VLM 181 39 0 05 May 2023
Domain Generalization for Mammographic Image Analysis with Contrastive Learning Zheren Li Zhiming Cui Lichi Zhang Sheng Wang Chenjin Lei ... Yajia Gu Zaiyi Liu Chunling Liu Dinggang Shen Jie‐Zhi Cheng 362 3 0 20 Apr 2023