VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 700 papers shown

Title
Emergence of Compositional Language with Deep Generational Transmission Michael Cogswell Jiasen Lu Stefan Lee Devi Parikh Dhruv Batra 16 49 0 19 Apr 2019
Evaluating the Representational Hub of Language and Vision Models Ravi Shekhar Ece Takmaz Raquel Fernández Raffaella Bernardi 25 11 0 12 Apr 2019
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan A. Schwing 19 110 0 11 Apr 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 19 69 0 11 Apr 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 28 117 0 11 Apr 2019
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research Xin Eric Wang Jiawei Wu Junkun Chen Lei Li Yuan-fang Wang William Yang Wang 10 540 0 06 Apr 2019
MMED: A Multi-domain and Multi-modality Event Dataset Zhenguo Yang Zehang Lin Min Cheng Qing Li Wenyin Liu 23 9 0 04 Apr 2019
Multi-Modal Generative Adversarial Network for Short Product Title Generation in Mobile E-Commerce Jianguo Zhang Pengcheng Zou Zhao Li Yao Wan Xiuming Pan Yu Gong Philip S. Yu 16 28 0 03 Apr 2019
Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches Shane Storks Qiaozi Gao J. Chai 13 128 0 02 Apr 2019
Constructing Hierarchical Q&A Datasets for Video Story Understanding Y. Heo Kyoung-Woon On Seong-Ho Choi Jaeseo Lim Jinah Kim Jeh-Kwang Ryu Byung-Chull Bae Byoung-Tak Zhang 17 4 0 01 Apr 2019
Visual Semantic Information Pursuit: A Survey Daqi Liu M. Bober J. Kittler 11 31 0 13 Mar 2019
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 24 86 0 07 Mar 2019
RAVEN: A Dataset for Relational and Analogical Visual rEasoNing Chi Zhang Feng Gao Baoxiong Jia Yixin Zhu Song-Chun Zhu AIMat 14 303 0 07 Mar 2019
Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation Liyiming Ke Xiujun Li Yonatan Bisk Ari Holtzman Zhe Gan Jingjing Liu Jianfeng Gao Yejin Choi S. Srinivasa 11 166 0 06 Mar 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
MUREL: Multimodal Relational Reasoning for Visual Question Answering Rémi Cadène H. Ben-younes Matthieu Cord Nicolas Thome LRM 19 271 0 25 Feb 2019
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog Zhe Gan Yu Cheng Ahmed El Kholy Linjie Li Jingjing Liu Jianfeng Gao 6 104 0 01 Feb 2019
Audio-Visual Scene-Aware Dialog Huda AlAmri Vincent Cartillier Abhishek Das Jue Wang A. Cherian ... Tim K. Marks Chiori Hori Peter Anderson Stefan Lee Devi Parikh VGen 17 188 0 25 Jan 2019
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey W. Zhang Quan Z. Sheng A. Alhazmi Chenliang Li AAML 16 57 0 21 Jan 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 31 321 0 20 Jan 2019
Evaluating Text-to-Image Matching using Binary Image Selection (BISON) Hexiang Hu Ishan Misra L. V. D. van der Maaten 16 22 0 19 Jan 2019
From FiLM to Video: Multi-turn Question Answering with Multi-modal Context T. Nguyen Shikhar Sharma Hannes Schulz Layla El Asri 12 33 0 17 Dec 2018
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering Peng Gao Zhengkai Jiang Haoxuan You Pan Lu Steven C. H. Hoi Xiaogang Wang Hongsheng Li AIMat 19 362 0 13 Dec 2018
Explainable and Explicit Visual Reasoning over Scene Graphs Jiaxin Shi Hanwang Zhang Juan-Zi Li OCL 155 230 0 05 Dec 2018
Generating Diverse Programs with Instruction Conditioned Reinforced Adversarial Learning Aishwarya Agrawal Mateusz Malinowski Felix Hill S. M. Ali Eslami Oriol Vinyals Tejas D. Kulkarni 21 4 0 03 Dec 2018
Touchdown: Natural Language Navigation and Spatial Reasoning in Visual Street Environments Howard Chen Alane Suhr Dipendra Kumar Misra Noah Snavely Yoav Artzi 23 381 0 29 Nov 2018
Explicit Bias Discovery in Visual Question Answering Models Varun Manjunatha Nirat Saini L. Davis CML FAtt 19 92 0 19 Nov 2018
Image Chat: Engaging Grounded Conversations Kurt Shuster Samuel Humeau Antoine Bordes Jason Weston 23 115 0 02 Nov 2018
A Knowledge-Grounded Multimodal Search-Based Conversational Agent Shubham Agarwal Ondrej Dusek Ioannis Konstas Verena Rieser 24 22 0 20 Oct 2018
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization S. Ramakrishnan Aishwarya Agrawal Stefan Lee AAML 20 235 0 08 Oct 2018
Visual Curiosity: Learning to Ask Questions to Learn Visual Recognition Jianwei Yang Jiasen Lu Stefan Lee Dhruv Batra Devi Parikh 11 42 0 01 Oct 2018
Textually Enriched Neural Module Networks for Visual Question Answering Khyathi Raghavi Chandu Mary Arpita Pyreddy Matthieu Felix N. Joshi 24 6 0 23 Sep 2018
Context-Dependent Diffusion Network for Visual Relationship Detection Zhen Cui Chunyan Xu Wenming Zheng Jian Yang GNN 12 50 0 11 Sep 2018
How clever is the FiLM model, and how clever can it be? A. Kuhnle Huiyuan Xie Ann A. Copestake 16 6 0 09 Sep 2018
Faithful Multimodal Explanation for Visual Question Answering Jialin Wu Raymond J. Mooney 9 90 0 08 Sep 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 20 55 0 06 Sep 2018
The Gap of Semantic Parsing: A Survey on Automatic Math Word Problem Solvers Dongxiang Zhang Lei Wang Nuo Xu B. Dai Heng Tao Shen ReLM AIMat 37 126 0 22 Aug 2018
Context-Aware Visual Policy Network for Sequence-Level Image Captioning Daqing Liu Zhengjun Zha Hanwang Zhang Yongdong Zhang Feng Wu CLIP 26 103 0 16 Aug 2018
Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection Amir Soleimani Nasser M. Nasrabadi ObjD 20 17 0 16 Jul 2018
Object Relation Detection Based on One-shot Learning Li Zhou Jian-jun Zhao Jianshu Li Li-xin Yuan Jiashi Feng ObjD 8 23 0 16 Jul 2018
Image Classification for Arabic: Assessing the Accuracy of Direct English to Arabic Translations Abdulkareem Alsudais VLM 17 4 0 13 Jul 2018
End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features Chiori Hori Huda AlAmri Jue Wang G. Wichern Takaaki Hori ... Raphael Gontijo-Lopes Abhishek Das Irfan Essa Dhruv Batra Devi Parikh VGen 16 125 0 21 Jun 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 29 62 0 13 Jun 2018
Explaining Explanations: An Overview of Interpretability of Machine Learning Leilani H. Gilpin David Bau Ben Z. Yuan Ayesha Bajwa Michael A. Specter Lalana Kagal XAI 21 1,835 0 31 May 2018
Visual Referring Expression Recognition: What Do Systems Actually Learn? Volkan Cirik Louis-Philippe Morency Taylor Berg-Kirkpatrick 24 63 0 30 May 2018
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 14 79 0 24 May 2018
Joint Image Captioning and Question Answering Jialin Wu Zeyuan Hu Raymond J. Mooney 22 12 0 22 May 2018
Defoiling Foiled Image Captions Pranava Madhyastha Josiah Wang Lucia Specia 22 9 0 16 May 2018
Did the Model Understand the Question? Pramod Kaushik Mudrakarta Ankur Taly Mukund Sundararajan Kedar Dhamdhere ELM OOD FAtt 27 196 0 14 May 2018
Domain Adapted Word Embeddings for Improved Sentiment Classification P. Sarma Yingyu Liang W. Sethares 11 68 0 11 May 2018