Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

4 August 2017

Papers citing "Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering"

50 / 214 papers shown

Title
Goal-Oriented Gaze Estimation for Zero-Shot Learning Yang Liu Lei Zhou Xiao Bai Yifei Huang Lin Gu Jun Zhou Tatsuya Harada 14 117 0 05 Mar 2021
Learning Compositional Representation for Few-shot Visual Question Answering Dalu Guo Dacheng Tao OOD CoGe 19 4 0 21 Feb 2021
Biomedical Question Answering: A Survey of Approaches and Challenges Qiao Jin Zheng Yuan Guangzhi Xiong Qian Yu Huaiyuan Ying Chuanqi Tan Mosha Chen Songfang Huang Xiaozhong Liu Sheng Yu 21 95 0 10 Feb 2021
Trying Bilinear Pooling in Video-QA T. Winterbottom S. Xiao A. McLean Noura Al Moubayed 17 3 0 18 Dec 2020
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding Qingxing Cao Bailin Li Xiaodan Liang Keze Wang Liang Lin 44 36 0 14 Dec 2020
FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding Maryam Rahnemoonfar Tashnim Chowdhury Argho Sarkar D. Varshney M. Yari Robin Murphy 9 239 0 05 Dec 2020
SS-SFDA : Self-Supervised Source-Free Domain Adaptation for Road Segmentation in Hazardous Environments D. Kothandaraman Rohan Chandra Dinesh Manocha TTA 32 31 0 27 Nov 2020
Multimodal Learning for Hateful Memes Detection Yi Zhou Zhenhao Chen 16 56 0 25 Nov 2020
XTQA: Span-Level Explanations of the Textbook Question Answering Jie Ma Q. Zheng Jun Liu Qingyu Yin Jianlong Zhou Y. Huang 17 12 0 25 Nov 2020
After All, Only The Last Neuron Matters: Comparing Multi-modal Fusion Functions for Scene Graph Generation Mohamed Karim Belaid 26 1 0 09 Nov 2020
An Improved Attention for Visual Question Answering Tanzila Rahman Shih-Han Chou Leonid Sigal Giuseppe Carenini 13 42 0 04 Nov 2020
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View Yangyang Guo Liqiang Nie Zhiyong Cheng Q. Tian Min Zhang 19 69 0 30 Oct 2020
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 24 56 0 27 Oct 2020
Where to Look and How to Describe: Fashion Image Retrieval with an Attentional Heterogeneous Bilinear Network Haibo Su Peng Wang Lingqiao Liu Hui Li Zhuguo Li Yanning Zhang 14 27 0 26 Oct 2020
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering Zanxia Jin Heran Wu Chun Yang Fang Zhou Jingyan Qin Lei Xiao Xu-Cheng Yin 9 30 0 24 Oct 2020
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions Radhika Dua Sai Srinivas Kancheti V. Balasubramanian LRM 30 22 0 24 Oct 2020
Bilinear Fusion of Commonsense Knowledge with Attention-Based NLI Models Amit Gajbhiye T. Winterbottom Noura Al Moubayed S. Bradley 22 4 0 22 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 18 6 0 19 Oct 2020
Neuralizing Efficient Higher-order Belief Propagation Mohammed Haroon Dupty W. Lee 27 7 0 19 Oct 2020
Hierarchical Conditional Relation Networks for Multimodal Video Question Answering T. Le Vuong Le Svetha Venkatesh T. Tran BDL 10 22 0 18 Oct 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei-Neng Chen Weiping Wang Li Liu M. Lew VLM 110 31 0 16 Oct 2020
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering D. Gupta S. Suman Asif Ekbal 22 60 0 27 Sep 2020
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering Doyup Lee Yeongjae Cheon Wook-Shin Han AAML OOD 6 16 0 21 Sep 2020
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering J. Yu Zihao Zhu Yujing Wang Weifeng Zhang Yue Hu Jianlong Tan 6 98 0 31 Aug 2020
LowFER: Low-rank Bilinear Pooling for Link Prediction Saadullah Amin Stalin Varanasi K. Dunfield G. Neumann 14 40 0 25 Aug 2020
Co-Saliency Detection with Co-Attention Fully Convolutional Network Guangshuai Gao Wenting Zhao Qingjie Liu Yunhong Wang 16 25 0 20 Aug 2020
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space Liu Yang VLM 16 5 0 02 Aug 2020
AiR: Attention with Reasoning Capability Shi Chen Ming Jiang Jinhui Yang Qi Zhao LRM 13 36 0 28 Jul 2020
REXUP: I REason, I EXtract, I UPdate with Structured Compositional Reasoning for Visual Question Answering Siwen Luo S. Han Kaiyuan Sun Josiah Poon CoGe LRM ReLM 18 4 0 27 Jul 2020
Approximated Bilinear Modules for Temporal Modeling Xinqi Zhu Chang Xu Langwen Hui Cewu Lu Dacheng Tao 14 23 0 25 Jul 2020
Interpretable Foreground Object Search As Knowledge Distillation Boren Li Po-Yu Zhuang Jian Gu Mingyang Li P. Tan 14 6 0 20 Jul 2020
Reducing Language Biases in Visual Question Answering with Visually-Grounded Question Encoder K. Gouthaman Anurag Mittal 42 78 0 13 Jul 2020
Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based Image Retrieval Anjan Dutta Zeynep Akata GAN 11 24 0 20 Jun 2020
Cogradient Descent for Bilinear Optimization Lian Zhuo Baochang Zhang Linlin Yang Hanlin Chen QiXiang Ye David Doermann G. Guo Rongrong Ji 12 14 0 16 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 24 487 0 11 Jun 2020
Counterfactual VQA: A Cause-Effect Look at Language Bias Yulei Niu Kaihua Tang Hanwang Zhang Zhiwu Lu Xiansheng Hua Ji-Rong Wen CML 36 394 0 08 Jun 2020
3D Face Anti-spoofing with Factorized Bilinear Coding Shan Jia Xin Li Chuanbo Hu G. Guo Zhengquan Xu CVBM AAML 10 50 0 12 May 2020
Deep Multimodal Neural Architecture Search Zhou Yu Yuhao Cui Jun-chen Yu Meng Wang Dacheng Tao Qi Tian 11 98 0 25 Apr 2020
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen 31 23 0 24 Apr 2020
An Entropy Clustering Approach for Assessing Visual Question Difficulty K. Terao Toru Tamaki B. Raytchev K. Kaneda Shuníchi Satoh OOD AAML 26 1 0 12 Apr 2020
Deep Multimodal Feature Encoding for Video Ordering Vivek Sharma Makarand Tapaswi Rainer Stiefelhagen 13 10 0 05 Apr 2020
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 35 68 0 25 Mar 2020
Linguistically Driven Graph Capsule Network for Visual Question Reasoning Qingxing Cao Xiaodan Liang Keze Wang Liang Lin GNN 13 3 0 23 Mar 2020
Hierarchical Conditional Relation Networks for Video Question Answering T. Le Vuong Le Svetha Venkatesh T. Tran 14 258 0 25 Feb 2020
CQ-VQA: Visual Question Answering on Categorized Questions Aakansha Mishra A. Anand Prithwijit Guha 25 6 0 17 Feb 2020
Sparse and Structured Visual Attention Pedro Henrique Martins S. Becker Zita Marinho Michael Arens 27 8 0 13 Feb 2020
Self-Attentive Associative Memory Hung Le T. Tran Svetha Venkatesh 4 56 0 10 Feb 2020
Augmenting Visual Question Answering with Semantic Frame Information in a Multitask Learning Approach Mehrdad Alizadeh Barbara Maria Di Eugenio 11 3 0 31 Jan 2020
Modality-Balanced Models for Visual Dialogue Hyounghun Kim Hao Tan Mohit Bansal 20 27 0 17 Jan 2020
Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue System Yun-Wei Chu Kuan-Yen Lin Chao-Chun Hsu Lun-Wei Ku 16 22 0 17 Jan 2020