v1v2v3 (latest)

Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

2 December 2016

Devi Parikh

Papers citing "Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering"

50 / 2,261 papers shown

Title
Can I Trust Your Answer? Visually Grounded Video Question AnsweringComputer Vision and Pattern Recognition (CVPR), 2023 Junbin Xiao Angela Yao Yicong Li Tat-Seng Chua 268 102 0 04 Sep 2023
Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic GroundingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023 Joshua Forster Feinglass Yezhou Yang 132 2 0 01 Sep 2023
Distraction-free Embeddings for Robust VQA Atharvan Dogra Deeksha Varshney Ashwin Kalyan Ameet Deshpande Neeraj Kumar 166 0 0 31 Aug 2023
TouchStone: Evaluating Vision-Language Models by Language Models Shuai Bai Shusheng Yang Jinze Bai Peng Wang Xing Zhang Junyang Lin Xinggang Wang Chang Zhou Jingren Zhou MLLM 226 56 0 31 Aug 2023
Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded ConversationsEuropean Conference on Computer Vision (ECCV), 2023 Kilichbek Haydarov Xiaoqian Shen Avinash Madasu Mahmoud Salem Jia Li Gamaleldin F. Elsayed Mohamed Elhoseiny 143 7 0 30 Aug 2023
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object DetectionIEEE Transactions on Image Processing (IEEE TIP), 2023 Yifan Xu Mengdan Zhang Xiaoshan Yang Changsheng Xu ObjD 169 8 0 30 Aug 2023
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine TranslationIEEE International Conference on Computer Vision (ICCV), 2023 Devaansh Gupta Siddhant Kharbanda Jiawei Zhou Wanhua Li Hanspeter Pfister D. Wei VLM 166 23 0 29 Aug 2023
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and MemoryComputer Vision and Pattern Recognition (CVPR), 2023 Haiwen Diao Bo Wan Yanzhe Zhang Xuecong Jia Huchuan Lu Long Chen VLM 177 25 0 28 Aug 2023
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou MLLM VLM ObjD 417 1,488 0 24 Aug 2023
HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt interaction tasks Zichao Dong Weikun Zhang Xufeng Huang Hang Ji Xin Zhan Junbo Chen VLM 71 6 0 24 Aug 2023
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoEAAAI Conference on Artificial Intelligence (AAAI), 2023 Junyi Chen Longteng Guo Jianxiang Sun Shuai Shao Zehuan Yuan Liang Lin Dongyu Zhang MLLM VLM MoE 147 19 0 23 Aug 2023
VQA Therapy: Exploring Answer Differences by Visually Grounding AnswersIEEE International Conference on Computer Vision (ICCV), 2023 Chongyan Chen Samreen Anjum Danna Gurari 202 15 0 21 Aug 2023
Generic Attention-model Explainability by Weighted Relevance AccumulationACM Multimedia Asia (MA), 2023 Yiming Huang Ao Jia Xiaodan Zhang Jiawei Zhang 110 4 0 20 Aug 2023
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual QuestionsAAAI Conference on Artificial Intelligence (AAAI), 2023 Wenbo Hu Y. Xu Jian Wang W. Li Zhe Chen Zhuowen Tu MLLM VLM 298 186 0 19 Aug 2023
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity ControlIEEE International Conference on Computer Vision (ICCV), 2023 Zi-Yuan Hu Yanyang Li Michael R. Lyu Liwei Wang VLM 149 23 0 18 Aug 2023
PUMGPT: A Large Vision-Language Model for Product Understanding Wei Xue Zongyi Guo Baoliang Cui Zengming Tang Weiwei Zhang Haihong Tang Shuhui Wu Weiming Lu VLM 166 5 0 18 Aug 2023
Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning Ye-Ting Chen Siyu Zhang Yaoru Sun Weijian Liang Haoran Wang 132 3 0 18 Aug 2023
Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering ModelsIEEE International Conference on Computer Vision (ICCV), 2023 Dohwan Ko Ji Soo Lee M. Choi Jaewon Chu Jihwan Park Hyunwoo J. Kim 139 6 0 18 Aug 2023
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes Zehan Wang Haifeng Huang Yang Zhao Ziang Zhang Zhou Zhao 239 104 0 17 Aug 2023
TeCH: Text-guided Reconstruction of Lifelike Clothed HumansInternational Conference on 3D Vision (3DV), 2023 Yangyi Huang Hongwei Yi Yuliang Xiu Tingting Liao Jiaxiang Tang Deng Cai Justus Thies DiffM 304 111 0 16 Aug 2023
CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology PreservationIEEE International Conference on Computer Vision (ICCV), 2023 Hongguang Zhu Yunchao Wei Xiaodan Liang Chunjie Zhang Yao-Min Zhao VLM 115 35 0 14 Aug 2023
VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use Yonatan Bitton Hritik Bansal Jack Hessel Rulin Shao Wanrong Zhu Anas Awadalla Josh Gardner Rohan Taori L. Schimdt VLM 367 97 0 12 Aug 2023
Foundation Model is Efficient Multimodal Multitask Model SelectorNeural Information Processing Systems (NeurIPS), 2023 Fanqing Meng Wenqi Shao Zhanglin Peng Chong Jiang Kaipeng Zhang Yu Qiao Ping Luo 123 21 0 11 Aug 2023
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored ModelsIEEE International Conference on Computer Vision (ICCV), 2023 Indranil Sur Karan Sikka Matthew Walmer K. Koneripalli Anirban Roy Xiaoyu Lin Ajay Divakaran Susmit Jha 139 12 0 07 Aug 2023
A Symbolic Character-Aware Model for Solving Geometry ProblemsACM Multimedia (ACM MM), 2023 Maizhen Ning Qiufeng Wang Kaizhu Huang Xiaowei Huang 117 21 0 05 Aug 2023
MM-Vet: Evaluating Large Multimodal Models for Integrated CapabilitiesInternational Conference on Machine Learning (ICML), 2023 Weihao Yu Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin Zicheng Liu Xinchao Wang Lijuan Wang MLLM 378 989 0 04 Aug 2023
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open WorldInternational Conference on Learning Representations (ICLR), 2023 Weiyun Wang Min Shi Qingyun Li Wen Wang Zhenhang Huang ... Zhiguo Cao Yushi Chen Tong Lu Jifeng Dai Yu Qiao LRM MLLM 217 115 0 03 Aug 2023
Grounded Image Text Matching with Mismatched Relation ReasoningIEEE International Conference on Computer Vision (ICCV), 2023 Yu Wu Yan-Tao Wei Haozhe Jasper Wang Yongfei Liu Sibei Yang Xuming He 191 12 0 02 Aug 2023
Making the V in Text-VQA Matter Shamanthak Hegde Soumya Jahagirdar Shankar Gangisetty CoGe 153 4 0 01 Aug 2023
Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks Kousik Rajesh Mrigank Raman M. A. Karim Pranit Chawla VLM 144 2 0 31 Jul 2023
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks Mustafa Shukor Corentin Dancette Alexandre Ramé Matthieu Cord MoMe MLLM 247 54 0 30 Jul 2023
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension Bohao Li Rui Wang Guangzhi Wang Yuying Ge Yixiao Ge Ying Shan MLLM ELM 395 756 0 30 Jul 2023
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering N. Naik Christopher Potts Elisa Kreiss 232 10 0 28 Jul 2023
Towards Generalist Biomedical AI Tao Tu Shekoofeh Azizi Danny Driess M. Schaekermann Mohamed Amin ... Yossi Matias K. Singhal Peter R. Florence Alan Karthikesalingam Vivek Natarajan LM&MA MedIm AI4MH 222 387 0 26 Jul 2023
LOIS: Looking Out of Instance Semantics for Visual Question AnsweringIEEE transactions on multimedia (IEEE TMM), 2023 Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 129 8 0 26 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming-Hsuan Yang Fahad Shahbaz Khan VLM 380 149 0 25 Jul 2023
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework Jingxuan Wei Cheng Tan Zhangyang Gao Linzhuang Sun Siyuan Li Bihui Yu R. Guo Stan Z. Li LRM 295 16 0 24 Jul 2023
Robust Visual Question Answering: Datasets, Methods, and Future ChallengesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 271 42 0 21 Jul 2023
Conformal prediction under ambiguous ground truth David Stutz Abhijit Guha Roy Tatiana Matejovicova Patricia Strachan A. Cemgil Arnaud Doucet 455 25 0 18 Jul 2023
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch SummarizationIEEE International Conference on Computer Vision (ICCV), 2023 Chaoya Jiang Haiyang Xu Wei Ye Qinghao Ye Chenliang Li Mingshi Yan Bin Bi Shikun Zhang Fei Huang Songfang Huang VLM 150 9 0 17 Jul 2023
PAT: Parallel Attention Transformer for Visual Question Answering in VietnameseInternational Conference on Multimedia Analysis and Pattern Recognition (ICMAPR), 2023 Nghia Hieu Nguyen Kiet Van Nguyen 148 2 0 17 Jul 2023
Planting a SEED of Vision in Large Language Model Yuying Ge Yixiao Ge Ziyun Zeng Xintao Wang Ying Shan VLM MLLM 165 122 0 16 Jul 2023
SINC: Self-Supervised In-Context Learning for Vision-Language TasksIEEE International Conference on Computer Vision (ICCV), 2023 Yi-Syuan Chen Yun-Zhu Song Cheng Yu Yeo Bei Liu Jianlong Fu Hong-Han Shuai VLM LRM 195 7 0 15 Jul 2023
Bootstrapping Vision-Language Learning with Decoupled Language Pre-trainingNeural Information Processing Systems (NeurIPS), 2023 Yiren Jian Chongyang Gao Soroush Vosoughi VLM MLLM 284 43 0 13 Jul 2023
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs Gregor Geigle Abhay Jain Radu Timofte Goran Glavaš VLM MLLM 171 39 0 13 Jul 2023
MMBench: Is Your Multi-modal Model an All-around Player?European Conference on Computer Vision (ECCV), 2023 Yuanzhan Liu Haodong Duan Yuanhan Zhang Yue Liu Songyang Zhang ... Yuan Liu Conghui He Ziwei Liu Kai-xiang Chen Dahua Lin 480 1,578 0 12 Jul 2023
Emu: Generative Pretraining in MultimodalityInternational Conference on Learning Representations (ICLR), 2023 Quan-Sen Sun Qiying Yu Yufeng Cui Fan Zhang Xiaosong Zhang Yueze Wang Hongcheng Gao Jingjing Liu Tiejun Huang Xinlong Wang MLLM 281 154 0 11 Jul 2023
Enhancing Cross-lingual Transfer via Phonemic Transcription IntegrationAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Hoang Nguyen Chenwei Zhang Tao Zhang Eugene Rohrbaugh Philip S. Yu 168 10 0 10 Jul 2023
SVIT: Scaling up Visual Instruction Tuning Bo Zhao Boya Wu Muyang He Tiejun Huang MLLM 253 153 0 09 Jul 2023
Read, Look or Listen? What's Needed for Solving a Multimodal Dataset Netta Madvil Yonatan Bitton Roy Schwartz 160 3 0 06 Jul 2023