Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

2 December 2016

Devi Parikh

Papers citing "Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering"

50 / 920 papers shown

Title
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models Zhenyue Qin Yu Yin Dylan Campbell Xuansheng Wu Ke Zou Yih-Chung Tham Ninghao Liu Xiuzhen Zhang Qingyu Chen 36 1 0 02 Oct 2024
Addition is All You Need for Energy-efficient Language Models Hongyin Luo Wei Sun 16 2 0 01 Oct 2024
A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning Niki Maria Foteinopoulou Enjie Ghorbel Djamila Aouada 16 2 0 01 Oct 2024
Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models Shitian Zhao Renrui Zhang Xu Luo Yan Wang Shanghang Zhang Peng Gao 18 0 0 01 Oct 2024
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding Fan Yuan Chi Qin Xiaogang Xu Piji Li VLM MLLM 17 4 0 30 Sep 2024
T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition Chen Yeh You-Ming Chang Wei-Chen Chiu Ning Yu 27 1 0 29 Sep 2024
TrojVLM: Backdoor Attack Against Vision Language Models Weimin Lyu Lu Pang Tengfei Ma Haibin Ling Chao Chen MLLM 26 6 0 28 Sep 2024
Emu3: Next-Token Prediction is All You Need Xinlong Wang Xiaosong Zhang Zhengxiong Luo Quan-Sen Sun Yufeng Cui ... Xi Yang Jingjing Liu Yonghua Lin Tiejun Huang Zhongyuan Wang MLLM 31 147 0 27 Sep 2024
DARE: Diverse Visual Question Answering with Robustness Evaluation Hannah Sterz Jonas Pfeiffer Ivan Vulić OOD VLM 13 2 0 26 Sep 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 42 11 0 26 Sep 2024
EAGLE: Egocentric AGgregated Language-video Engine Jing Bi Yunlong Tang Luchuan Song A. Vosoughi Nguyen Nguyen Chenliang Xu 25 8 0 26 Sep 2024
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond Hong Chen Xin Wang Yuwei Zhou Bin Huang Yipeng Zhang Wei Feng Houlun Chen Zeyang Zhang Siao Tang Wenwu Zhu DiffM 44 7 0 23 Sep 2024
Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization Minyi Zhao Jie Wang Z. Li Jiyuan Zhang Zhenbang Sun Shuigeng Zhou MLLM VLM 15 0 0 22 Sep 2024
Scene-Text Grounding for Text-Based Video Question Answering Sheng Zhou Junbin Xiao Xun Yang Peipei Song Dan Guo Angela Yao Meng Wang Tat-Seng Chua 48 1 0 22 Sep 2024
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images Zhecan Wang Junzhang Liu Chia-Wei Tang Hani Alomari Anushka Sivakumar ... Haoxuan You A. Ishmam Kai-Wei Chang Shih-Fu Chang Chris Thomas CoGe VLM 50 2 0 19 Sep 2024
NVLM: Open Frontier-Class Multimodal LLMs Wenliang Dai Nayeon Lee Boxin Wang Zhuoling Yang Zihan Liu Jon Barker Tuomas Rintamaki M. Shoeybi Bryan Catanzaro Wei Ping MLLM VLM LRM 37 50 0 17 Sep 2024
Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA Jian Lan Diego Frassinelli Barbara Plank 15 0 0 17 Sep 2024
Benchmarking VLMs' Reasoning About Persuasive Atypical Images Sina Malakouti Aysan Aghazadeh Ashmit Khandelwal Adriana Kovashka VLM 26 2 0 16 Sep 2024
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems Zhixian He Pengcheng Zhao Fuwei Zhang Shujin Lin 31 0 0 14 Sep 2024
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types Neelabh Sinha Vinija Jain Aman Chadha 11 2 0 14 Sep 2024
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding Xiaoyu Liang Jiayuan Yu Lianrui Mu Jiedong Zhuang Jiaqi Hu Yuchen Yang Jiangnan Ye Lu Lu Jian Chen Haoji Hu VLM 35 0 0 10 Sep 2024
Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling Georgios Pantazopoulos Malvina Nikandrou Alessandro Suglia Oliver Lemon Arash Eshghi Mamba 33 1 0 09 Sep 2024
UNIT: Unifying Image and Text Recognition in One Vision Encoder Yi Zhu Yanpeng Zhou Chunwei Wang Yang Cao Jianhua Han Lu Hou Hang Xu ViT VLM 27 4 0 06 Sep 2024
Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models Bin Fu Qiyang Wan Jialin Li Ruiping Wang Xilin Chen 32 0 0 03 Sep 2024
Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information Yi Chen Jian Xu Xu-Yao Zhang Wen-Zhuo Liu Yang-Yang Liu Cheng-Lin Liu 21 3 0 02 Sep 2024
ContextVLM: Zero-Shot and Few-Shot Context Understanding for Autonomous Driving using Vision Language Models Shounak Sural Naren R. Rajkumar 24 1 0 30 Aug 2024
MAPWise: Evaluating Vision-Language Models for Advanced Map Queries Srija Mukhopadhyay Abhishek Rajgaria Prerana Khatiwada Vivek Gupta Dan Roth 16 0 0 30 Aug 2024
Look, Learn and Leverage (L $^3$ ): Mitigating Visual-Domain Shift and Discovering Intrinsic Relations via Symbolic Alignment Hanchen Xie Jiageng Zhu Mahyar Khayatkhoei Jiazhi Li Wael AbdAlmageed OOD 16 0 0 30 Aug 2024
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding Yonghui Wang Wengang Zhou Hao Feng Houqiang Li VLM 22 0 0 30 Aug 2024
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios Baichuan Zhou Haote Yang Dairong Chen Junyan Ye Tianyi Bai Jinhua Yu Songyang Zhang Dahua Lin Conghui He Weijia Li VLM 53 3 0 30 Aug 2024
LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models Jingyi Wang Jianzhong Ju Jian Luan Zhidong Deng VLM 22 1 0 29 Aug 2024
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation Fangxun Shu Yue Liao Le Zhuo Chenning Xu Guanghao Zhang ... Bolin Li Zhelun Yu Si Liu Hongsheng Li Hao Jiang VLM MoE 27 8 0 28 Aug 2024
A Survey on Evaluation of Multimodal Large Language Models Jiaxing Huang Jingyi Zhang LM&MA ELM LRM 43 20 0 28 Aug 2024
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders Min Shi Fuxiao Liu Shihao Wang Shijia Liao Subhashree Radhakrishnan ... Andrew Tao Andrew Tao Zhiding Yu Guilin Liu Guilin Liu MLLM 18 53 0 28 Aug 2024
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis Aishik Nagar Shantanu Jaiswal Cheston Tan ReLM LRM 23 7 0 27 Aug 2024
Evaluating Attribute Comprehension in Large Vision-Language Models Haiwen Zhang Zixi Yang Yuanzhi Liu Xinran Wang Zheqi He Kongming Liang Zhanyu Ma ELM 16 0 0 25 Aug 2024
Identifying Crucial Objects in Blind and Low-Vision Individuals' Navigation Md Touhidul Islam Imran Kabir Elena Ariel Pearce Md. Alimoor Reza Syed Masum Billah 17 2 0 23 Aug 2024
Multimodal Contrastive In-Context Learning Yosuke Miyanishi Minh Le Nguyen 30 2 0 23 Aug 2024
ParGo: Bridging Vision-Language with Partial and Global Views An-Lan Wang Bin Shan Wei Shi Kun-Yu Lin Xiang Fei Guozhi Tang Lei Liao Jingqun Tang Can Huang Wei-Shi Zheng MLLM VLM 77 13 0 23 Aug 2024
Building and better understanding vision-language models: insights and future directions Hugo Laurençon Andrés Marafioti Victor Sanh Léo Tronchon VLM 34 60 0 22 Aug 2024
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model Chaoya Jiang Jia Hongrui Haiyang Xu Wei Ye Mengfan Dong Ming Yan Ji Zhang Fei Huang Shikun Zhang VLM 38 1 0 22 Aug 2024
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs Yuanyang Yin Yaqi Zhao Yajie Zhang Ke Lin Jiahao Wang Xin Tao Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang LRM 31 5 0 21 Aug 2024
CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering Yuliang Cai Mohammad Rostami CLL VLM MLLM 29 2 0 21 Aug 2024
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation Xiangyu Zhao Yuehan Zhang Wenlong Zhang X. Wu 31 4 0 21 Aug 2024
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments Kazi Hasan Ibn Arif JinYi Yoon Dimitrios S. Nikolopoulos Hans Vandierendonck Deepu John Bo Ji MLLM VLM 27 14 0 20 Aug 2024
ARMADA: Attribute-Based Multimodal Data Augmentation Xiaomeng Jin Jeonghwan Kim Yu Zhou Kuan-Hao Huang Te-Lin Wu Nanyun Peng Heng Ji 24 2 0 19 Aug 2024
Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit Qizhou Chen Taolin Zhang Chengyu Wang Xiaofeng He Dakan Wang Tingting Liu KELM 44 2 0 19 Aug 2024
Quality Assessment in the Era of Large Models: A Survey Zicheng Zhang Yingjie Zhou Chunyi Li Baixuan Zhao Xiaohong Liu Guangtao Zhai 32 10 0 17 Aug 2024
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 68 11 0 16 Aug 2024
Can Large Language Models Understand Symbolic Graphics Programs? Zeju Qiu Weiyang Liu Haiwen Feng Zhen Liu Tim Z. Xiao Katherine M. Collins J. Tenenbaum Adrian Weller Michael J. Black Bernhard Schölkopf 46 11 0 15 Aug 2024