Co-attending Free-form Regions and Detections with Multi-modal
Multiplicative Feature Embedding for Visual Question Answering

Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering

18 November 2017

Wei Zhang

Papers citing "Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for Visual Question Answering"

13 / 13 papers shown

Title
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 25 4 0 26 Jul 2023
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 211 1,105 0 20 Sep 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 18 35 0 26 Jul 2022
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering Jingkuan Song Pengpeng Zeng Lianli Gao Heng Tao Shen 32 62 0 04 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 30 68 0 02 Jun 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 29 9 0 02 Mar 2022
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning Pan Lu Liang Qiu Jiaqi Chen Tony Xia Yizhou Zhao Wei Zhang Zhou Yu Xiaodan Liang Song-Chun Zhu AIMat 39 183 0 25 Oct 2021
An Improved Attention for Visual Question Answering Tanzila Rahman Shih-Han Chou Leonid Sigal Giuseppe Carenini 13 42 0 04 Nov 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei-Neng Chen Weiping Wang Li Liu M. Lew VLM 112 31 0 16 Oct 2020
Question-Agnostic Attention for Visual Question Answering M. Farazi Salman H Khan Nick Barnes 13 10 0 09 Aug 2019
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Pan Lu Lei Ji Wei Zhang Nan Duan M. Zhou Jianyong Wang CoGe 17 79 0 24 May 2018
Visual Question Generation as Dual Task of Visual Question Answering Yikang Li Nan Duan Bolei Zhou Xiao Chu Wanli Ouyang Xiaogang Wang 34 165 0 21 Sep 2017
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 152 1,465 0 06 Jun 2016