Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering

17 November 2015

Papers citing "Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering"

50 / 69 papers shown

Title
OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels Meng Lou Yizhou Yu 110 1 0 27 Feb 2025
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images Quan Van Nguyen Dan Quang Tran Huy Quang Pham Thang Kien-Bao Nguyen Nghia Hieu Nguyen Kiet Van Nguyen N. Nguyen CoGe 37 3 0 16 Apr 2024
Top-Down Visual Attention from Analysis by Synthesis Baifeng Shi Trevor Darrell Xin Eric Wang 17 28 0 23 Mar 2023
Understanding Social Media Cross-Modality Discourse in Linguistic Space Chunpu Xu Hanzhuo Tan Jing Li Piji Li 13 5 0 26 Feb 2023
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning Xinyue Hu Lin Gu Kazuma Kobayashi Qi A. An Qingyu Chen Zhiyong Lu Chang Su Tatsuya Harada Yingying Zhu GNN 21 9 0 19 Feb 2023
On the Explainability of Natural Language Processing Deep Models Julia El Zini M. Awad 25 82 0 13 Oct 2022
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering Jingkuan Song Pengpeng Zeng Lianli Gao Heng Tao Shen 19 62 0 04 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 23 68 0 02 Jun 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 33 0 10 May 2022
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 36 149 0 27 Apr 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 25 20 0 05 Apr 2022
CNN Attention Guidance for Improved Orthopedics Radiographic Fracture Classification Zhibin Liao Kewen Liao Haifeng Shen M. F. van Boxel J. Prijs R. Jaarsma J. Doornberg A. Hengel Johan W. Verjans 21 14 0 21 Mar 2022
Dynamic Spatial Propagation Network for Depth Completion Y. Lin T. Cheng Qianglong Zhong Wending Zhou Huanhuan Yang 42 115 0 20 Feb 2022
Understanding the computational demands underlying visual reasoning Mohit Vaishnav Rémi Cadène A. Alamia Drew Linsley Rufin VanRullen Thomas Serre GNN CoGe 32 16 0 08 Aug 2021
Measuring and Improving BERT's Mathematical Abilities by Predicting the Order of Reasoning Piotr Pikekos Henryk Michalewski Mateusz Malinowski 22 28 0 07 Jun 2021
Visual Navigation with Spatial Attention Bar Mayo Tamir Hazan A. Tal EgoV 19 72 0 20 Apr 2021
Answer Questions with Right Image Regions: A Visual Attention Regularization Approach Y. Liu Yangyang Guo Jianhua Yin Xuemeng Song Weifeng Liu Liqiang Nie 24 28 0 03 Feb 2021
Explainability of deep vision-based autonomous driving systems: Review and challenges Éloi Zablocki H. Ben-younes P. Pérez Matthieu Cord XAI 32 169 0 13 Jan 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Fei Wu Rui Yan Jiwei Li 16 28 0 30 Dec 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 24 56 0 27 Oct 2020
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang J. Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 15 70 0 17 Nov 2019
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines Jingxiang Lin Unnat Jain A. Schwing LRM ReLM 26 9 0 31 Oct 2019
Cross Attention Network for Few-shot Classification Rui Hou Hong Chang Bingpeng Ma Shiguang Shan Xilin Chen 202 629 0 17 Oct 2019
LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan Huijuan Xu Kate Saenko Bryan A. Plummer 15 67 0 27 Sep 2019
Compact Trilinear Interaction for Visual Question Answering Tuong Khanh Long Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang-Dieu Tran 26 59 0 26 Sep 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 22 13 0 11 Sep 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 19 76 0 17 Aug 2019
Compact Global Descriptor for Neural Networks Xiangyu He Ke Cheng Qiang Chen Qinghao Hu Peisong Wang Jian Cheng 31 8 0 23 Jul 2019
HAR-Net: Joint Learning of Hybrid Attention for Single-stage Object Detection Yali Li Shengjin Wang 14 32 0 25 Apr 2019
MAANet: Multi-view Aware Attention Networks for Image Super-Resolution Jingcai Guo Shiheng Ma Song Guo SupR 6 5 0 12 Apr 2019
Factor Graph Attention Idan Schwartz Seunghak Yu Tamir Hazan A. Schwing 19 110 0 11 Apr 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 19 69 0 11 Apr 2019
PiCANet: Pixel-wise Contextual Attention Learning for Accurate Saliency Detection Nian Liu Junwei Han Ming-Hsuan Yang SSeg 28 99 0 15 Dec 2018
Complete the Look: Scene-based Complementary Product Recommendation Wang-Cheng Kang Eric Kim J. Leskovec Charles R. Rosenberg Julian McAuley 11 76 0 04 Dec 2018
Traversing the Continuous Spectrum of Image Retrieval with Deep Dynamic Models Ziad Al-Halah Andreas M. Lehrmann Leonid Sigal 8 0 0 01 Dec 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 20 55 0 06 Sep 2018
Learning Visual Knowledge Memory Networks for Visual Question Answering Zhou Su Chen Zhu Yinpeng Dong Dongqi Cai Yurong Chen Jianguo Li 27 62 0 13 Jun 2018
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 9 79 0 24 May 2018
Stacked Semantic-Guided Attention Model for Fine-Grained Zero-Shot Learning Yunlong Yu Zhong Ji Yanwei Fu Jichang Guo Yanwei Pang Zhongfei Zhang VLM 16 27 0 21 May 2018
Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation Jichao Zhang Yezhi Shu Songhua Xu Gongze Cao Fan Zhong Meng Liu Xueying Qin CVBM 25 35 0 19 May 2018
Attention-Aware Compositional Network for Person Re-identification Jing Xu Rui Zhao Feng Zhu Huaming Wang Wanli Ouyang CVBM 14 443 0 09 May 2018
Deep Ordinal Hashing with Spatial Attention Lu Jin Xiangbo Shu Kai Li Zechao Li Guo-Jun Qi Jinhui Tang 27 78 0 07 May 2018
Learn To Pay Attention Saumya Jetley Nicholas A. Lord Namhoon Lee Philip H. S. Torr 48 436 0 06 Apr 2018
Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering Duy-Kien Nguyen Takayuki Okatani 22 279 0 03 Apr 2018
Unsupervised Textual Grounding: Linking Words to Image Concepts Raymond A. Yeh Minh Do A. Schwing 14 40 0 29 Mar 2018
Motion-Appearance Co-Memory Networks for Video Question Answering J. Gao Runzhou Ge Kan Chen Ram Nevatia 13 240 0 29 Mar 2018
Attention-GAN for Object Transfiguration in Wild Images Xinyuan Chen Chang Xu Xiaokang Yang Dacheng Tao 10 176 0 19 Mar 2018
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning David Mascharka Philip Tran Ryan Soklaski Arjun Majumdar 22 207 0 14 Mar 2018
Multimodal Explanations: Justifying Decisions and Pointing to the Evidence Dong Huk Park Lisa Anne Hendricks Zeynep Akata Anna Rohrbach Bernt Schiele Trevor Darrell Marcus Rohrbach 35 418 0 15 Feb 2018
Game of Sketches: Deep Recurrent Models of Pictionary-style Word Guessing Ravi Kiran Sarvadevabhatla Shiv Surya Trisha Mittal Venkatesh Babu Radhakrishnan 8 14 0 29 Jan 2018