Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

9 August 2017

Papers citing "Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge"

21 / 21 papers shown

Title
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning Minheng Ni Yutao Fan Lei Zhang Wangmeng Zuo LRM AI4CE 24 6 0 04 Oct 2024
Convincing Rationales for Visual Question Answering Reasoning Kun Li G. Vosselman Michael Ying Yang 34 1 0 06 Feb 2024
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 20 4 0 26 Jul 2023
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature Ana Claudia Akemi Matsuki de Faria Felype de Castro Bastos Jose Victor Nogueira Alves da Silva Vitor Lopes Fabris Valeska Uchôa Décio Gonccalves de Aguiar Neto C. F. G. Santos 25 22 0 18 May 2023
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 15 67 0 02 Jun 2022
Learning to Retrieve Videos by Asking Questions Avinash Madasu Junier Oliva Gedas Bertasius VGen 25 15 0 11 May 2022
ICDAR 2021 Competition on Document VisualQuestion Answering Rubèn Pérez Tito Minesh Mathew C. V. Jawahar Ernest Valveny Dimosthenis Karatzas 22 23 0 10 Nov 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 12 147 0 05 Mar 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 75 110 0 31 Jan 2021
Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data Michael Cogswell Jiasen Lu Rishabh Jain Stefan Lee Devi Parikh Dhruv Batra VLM EgoV 21 15 0 24 Jul 2020
History for Visual Dialog: Do we really need it? Shubham Agarwal Trung Bui Joon-Young Lee Ioannis Konstas Verena Rieser VLM 11 69 0 08 May 2020
Explainable Deep Learning: A Field Guide for the Uninitiated Gabrielle Ras Ning Xie Marcel van Gerven Derek Doran AAML XAI 29 366 0 30 Apr 2020
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 20 59 0 07 Dec 2019
Compact Trilinear Interaction for Visual Question Answering Tuong Khanh Long Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang-Dieu Tran 19 59 0 26 Sep 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 23 117 0 11 Apr 2019
Visual Entailment: A Novel Task for Fine-Grained Image Understanding Ning Xie Farley Lai Derek Doran Asim Kadav CoGe 31 318 0 20 Jan 2019
Fusion Strategies for Learning User Embeddings with Neural Networks Philipp Blandfort Tushar Karayil Federico Raue Jörn Hees Andreas Dengel FedML 11 9 0 08 Jan 2019
Did the Model Understand the Question? Pramod Kaushik Mudrakarta Ankur Taly Mukund Sundararajan Kedar Dhamdhere ELM OOD FAtt 4 196 0 14 May 2018
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering Duy-Kien Nguyen Takayuki Okatani 15 279 0 03 Apr 2018
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 52 3,086 0 02 Dec 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,458 0 06 Jun 2016