Exploring Models and Data for Image Question Answering

8 May 2015

Papers citing "Exploring Models and Data for Image Question Answering"

50 / 95 papers shown

Title
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 92 0 0 26 Mar 2025
LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts Thanh-Phong Le Trung Le Chi Phan Nghia Hieu Nguyen Kiet Van Nguyen ViT 44 0 0 26 Feb 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 84 3 0 26 Feb 2025
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models Amir Mohammad Karimi Mamaghan Samuele Papa Karl Henrik Johansson Stefan Bauer Andrea Dittadi OCL 46 5 0 22 Jul 2024
Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review Moseli Motsóehli VLM 3DV 30 0 0 28 Jun 2024
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models Yue Zhang Hehe Fan Yi Yang 43 3 0 24 May 2024
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension Lei Zhu Fangyun Wei Yanye Lu MLLM VLM 44 17 0 12 Mar 2024
COCO is "ALL'' You Need for Visual Instruction Fine-tuning Xiaotian Han Yiqi Wang Bohan Zhai Quanzeng You Hongxia Yang VLM MLLM 30 2 0 17 Jan 2024
3D-Aware Visual Question Answering about Parts, Poses and Occlusions Xingrui Wang Wufei Ma Zhuowan Li Adam Kortylewski Alan L. Yuille CoGe 19 12 0 27 Oct 2023
Visual Question Generation in Bengali Mahmud Hasan Labiba Islam J. Ruma T. Mayeesha Rashedur Rahman 19 1 0 12 Oct 2023
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP Vedant Palit Rohan Pandey Aryaman Arora Paul Pu Liang 31 20 0 27 Aug 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 25 4 0 26 Jul 2023
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language Shantipriya Parida Idris Abdulmumin Shamsuddeen Hassan Muhammad Aneesh Bose Guneet Singh Kohli I. Ahmad Ketan Kotwal S. Sarkar Ondrej Bojar Habeebah Adamu Kakudi 22 4 0 28 May 2023
Task-Attentive Transformer Architecture for Continual Learning of Vision-and-Language Tasks Using Knowledge Distillation Yuliang Cai Jesse Thomason Mohammad Rostami VLM CLL 19 11 0 25 Mar 2023
Knowledge-Based Counterfactual Queries for Visual Question Answering Theodoti Stoikou Maria Lymperaiou Giorgos Stamou AAML 26 1 0 05 Mar 2023
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models Ali Borji CoGe 10 1 0 28 Jan 2023
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 23 57 0 01 Dec 2022
WildQA: In-the-Wild Video Question Answering Santiago Castro Naihao Deng Pingxuan Huang Mihai Burzo Rada Mihalcea 70 7 0 14 Sep 2022
Interactive Question Answering Systems: Literature Review Giovanni Maria Biancofiore Yashar Deldjoo T. D. Noia E. Sciascio F. Narducci 32 13 0 04 Sep 2022
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang Yunxin Li Baotian Hu Lin Ma Yuxin Ding Min Zhang 25 10 0 23 Jul 2022
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering Jingkuan Song Pengpeng Zeng Lianli Gao Heng Tao Shen 32 62 0 04 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 25 68 0 02 Jun 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 34 33 0 10 May 2022
All You May Need for VQA are Image Captions Soravit Changpinyo Doron Kukliansky Idan Szpektor Xi Chen Nan Ding Radu Soricut 32 70 0 04 May 2022
PACTran: PAC-Bayesian Metrics for Estimating the Transferability of Pretrained Models to Classification Tasks Nan Ding Xi Chen Tomer Levinboim Soravit Changpinyo Radu Soricut 22 26 0 10 Mar 2022
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices Mikolaj Malkiñski Jacek Mañdziuk 120 41 0 28 Jan 2022
MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding Revanth Reddy Gangi Reddy Xilin Rui Manling Li Xudong Lin Haoyang Wen ... Mohit Bansal Avirup Sil Shih-Fu Chang A. Schwing Heng Ji 17 31 0 20 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 26 46 0 15 Dec 2021
Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices Hariom A. Pandya Brijesh S. Bhatt 40 27 0 07 Dec 2021
Multimodal Dialogue Response Generation Qingfeng Sun Yujing Wang Can Xu Kai Zheng Yaming Yang Huang Hu Fei Xu Jessica Zhang Xiubo Geng Daxin Jiang 15 43 0 16 Oct 2021
Asking questions on handwritten document collections Minesh Mathew Lluís Gómez Dimosthenis Karatzas C. V. Jawahar RALM 20 11 0 02 Oct 2021
ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Historical News Collections Jiexin Wang Adam Jatowt Masatoshi Yoshikawa 33 33 0 08 Sep 2021
Privacy-Preserving Federated Learning on Partitioned Attributes Shuang Zhang Liyao Xiang Xi Yu Pengzhi Chu Yingqi Chen Chen Cen L. Wang FedML 18 2 0 29 Apr 2021
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images Shailaja Keyur Sampat Akshay Kumar Yezhou Yang Chitta Baral 21 26 0 13 Apr 2021
WeaQA: Weak Supervision via Captions for Visual Question Answering Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 19 34 0 04 Dec 2020
Robust Explanations for Visual Question Answering Badri N. Patro Shivansh Pate Vinay P. Namboodiri OOD AAML 12 20 0 23 Jan 2020
Weak Supervision helps Emergence of Word-Object Alignment and improves Vision-Language Tasks Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 19 14 0 06 Dec 2019
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang J. Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 17 70 0 17 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain A. Schwing LRM ReLM 31 9 0 31 Oct 2019
Multi-modal Deep Analysis for Multimedia Wenwu Zhu Xin Eric Wang Hongzhi Li 21 38 0 11 Oct 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 24 13 0 11 Sep 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 21 76 0 17 Aug 2019
VideoNavQA: Bridging the Gap between Visual and Embodied Question Answering Cătălina Cangea Eugene Belilovsky Pietro Lió Aaron Courville 16 16 0 14 Aug 2019
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan A. Schwing 19 110 0 11 Apr 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 19 69 0 11 Apr 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 39 117 0 11 Apr 2019
Constructing Hierarchical Q&A Datasets for Video Story Understanding Y. Heo Kyoung-Woon On Seong-Ho Choi Jaeseo Lim Jinah Kim Jeh-Kwang Ryu Byung-Chull Bae Byoung-Tak Zhang 23 5 0 01 Apr 2019
RAVEN: A Dataset for Relational and Analogical Visual rEasoNing Chi Zhang Feng Gao Baoxiong Jia Yixin Zhu Song-Chun Zhu AIMat 24 303 0 07 Mar 2019
Learning To Follow Directions in Street View Karl Moritz Hermann Mateusz Malinowski Piotr Wojciech Mirowski Andras Banki-Horvath Keith Anderson R. Hadsell SSL 16 66 0 01 Mar 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 31 321 0 20 Jan 2019