Stacked Attention Networks for Image Question Answering

7 November 2015

Li Deng

Papers citing "Stacked Attention Networks for Image Question Answering"

50 / 209 papers shown

Title
Structure-Aware Human Body Reshaping with Adaptive Affinity-Graph Network Qiwen Deng Yangcen Liu Wen Li Guoqing Wang 3DH 93 0 0 28 Jan 2025
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 45 0 0 22 Jan 2025
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation Daowan Peng Wei Wei 122 0 0 10 Jan 2025
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 79 2 0 20 Nov 2024
Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering Zhilin Zhang Jie Wang Zhanghao Qin Ruiqi Zhu Xiaoliang Gong MedIm 39 0 0 28 Oct 2024
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering Tiancheng Gu Kaicheng Yang Dongnan Liu Weidong Cai MedIm 29 2 0 19 Apr 2024
UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts Chenlu Zhan Yufei Zhang Yu Lin Gaoang Wang Hongwei Wang VLM MedIm 26 5 0 18 Dec 2023
ResNLS: An Improved Model for Stock Price Forecasting Yuanzhe Jia Ali Anaissi Basem Suleiman AI4TS AIFin 41 3 0 02 Dec 2023
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation Christel Chappuis Eliot Walt Vincent Mendez Sylvain Lobry B. L. Saux D. Tuia 23 3 0 28 Nov 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 23 4 0 26 Jul 2023
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 8 6 0 11 May 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 33 739 0 28 Mar 2023
Top-Down Visual Attention from Analysis by Synthesis Baifeng Shi Trevor Darrell Xin Eric Wang 19 28 0 23 Mar 2023
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering Chenlu Zhan Peng Peng Hongsen Wang Tao Chen Hongwei Wang MedIm 23 3 0 21 Dec 2022
Smart Agriculture : A Novel Multilevel Approach for Agricultural Risk Assessment over Unstructured Data Hasna Najmi M. Mikram Maryem Rhanoui Siham Yousfi 14 0 0 22 Nov 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 21 0 0 21 Nov 2022
AlignVE: Visual Entailment Recognition Based on Alignment Relations Biwei Cao Jiuxin Cao Jie Gui Jiayun Shen Bo Liu Lei He Yuan Yan Tang James T. Kwok 18 7 0 16 Nov 2022
MapQA: A Dataset for Question Answering on Choropleth Maps Shuaichen Chang David Palzer Jialin Li Eric Fosler-Lussier N. Xiao 19 40 0 15 Nov 2022
Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization Yiyang Chen Zhedong Zheng Wei Ji Leigang Qu Tat-Seng Chua 24 37 0 14 Nov 2022
On the Explainability of Natural Language Processing Deep Models Julia El Zini M. Awad 25 82 0 13 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 32 23 0 10 Oct 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 18 35 0 26 Jul 2022
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem Yudong Han Liqiang Nie Jianhua Yin Jianlong Wu Yan Yan 24 12 0 24 Jul 2022
Explicit Image Caption Editing Zhen Wang Long Chen Wenbo Ma G. Han Yulei Niu Jian Shao Jun Xiao 17 12 0 20 Jul 2022
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering Jingkuan Song Pengpeng Zeng Lianli Gao Heng Tao Shen 26 62 0 04 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 25 68 0 02 Jun 2022
Fine-Grained Visual Classification using Self Assessment Classifier Tuong Khanh Long Do Huy Tran Erman Tjiputra Quang-Dieu Tran Anh Nguyen 35 12 0 21 May 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 34 33 0 10 May 2022
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 36 149 0 27 Apr 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 27 20 0 05 Apr 2022
Co-VQA : Answering by Interactive Sub Question Sequence Ruonan Wang Yuxi Qian Fangxiang Feng Xiaojie Wang Huixing Jiang LRM 21 16 0 02 Apr 2022
A General Survey on Attention Mechanisms in Deep Learning Gianni Brauwers Flavius Frasincar 28 296 0 27 Mar 2022
CNN Attention Guidance for Improved Orthopedics Radiographic Fracture Classification Zhibin Liao Kewen Liao Haifeng Shen M. F. van Boxel J. Prijs R. Jaarsma J. Doornberg A. Hengel Johan W. Verjans 21 14 0 21 Mar 2022
Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information Lingfeng Yang Xiang Li Renjie Song Borui Zhao J. Tao Shihao Zhou Jiajun Liang Jian Yang 24 37 0 07 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 29 9 0 02 Mar 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 13 3 0 24 Feb 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
NEWSKVQA: Knowledge-Aware News Video Question Answering Pranay Gupta Manish Gupta 22 7 0 08 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 8 89 0 31 Jan 2022
Glance and Focus Networks for Dynamic Visual Recognition Gao Huang Yulin Wang Kangchen Lv Haojun Jiang Wenhui Huang Pengfei Qi S. Song 3DH 71 49 0 09 Jan 2022
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 24 46 0 15 Dec 2021
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 25 20 0 14 Dec 2021
Classification-Regression for Chart Comprehension Matan Levy Rami Ben-Ari Dani Lischinski 23 15 0 29 Nov 2021
Achieving Human Parity on Visual Question Answering Ming Yan Haiyang Xu Chenliang Li Junfeng Tian Bin Bi ... Ji Zhang Songfang Huang Fei Huang Luo Si Rong Jin 24 12 0 17 Nov 2021
Language bias in Visual Question Answering: A Survey and Taxonomy Desen Yuan 22 12 0 16 Nov 2021
A Simple Approach to Image Tilt Correction with Self-Attention MobileNet for Smartphones Siddhant Garg D. Mohanty S. Thota Sukumar Moharana ViT 11 2 0 31 Oct 2021
Topic Scene Graph Generation by Attention Distillation from Caption Wenbin Wang R. Wang X. Chen DiffM 17 14 0 12 Oct 2021
A Survey On Neural Word Embeddings Erhan Sezerer Selma Tekir AI4TS 24 12 0 05 Oct 2021
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering Ekta Sood Fabian Kögel Florian Strohm Prajit Dhar Andreas Bulling 29 19 0 27 Sep 2021
How to find a good image-text embedding for remote sensing visual question answering? Christel Chappuis Sylvain Lobry B. Kellenberger Bertrand Le Saux D. Tuia 34 20 0 24 Sep 2021