Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering

10 August 2017

Papers citing "Beyond Bilinear: Generalized Multimodal Factorized High-order Pooling for Visual Question Answering"

23 / 23 papers shown

Title
Generalizable Prompt Learning of CLIP: A Brief Overview Fangming Cui Yonggang Zhang Xuan Wang Xule Wang Liang Xiao VPVLM VLM 105 0 0 03 Mar 2025
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 8 6 0 11 May 2023
AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry Azin Asgarian Rohit Saha Daniel Jakubovitz Julia Peyre 21 2 0 15 Jan 2023
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection Yanxin Long Jianhua Han Runhu Huang Xu Hang Yi Zhu Chunjing Xu Xiaodan Liang VLM ObjD 22 18 0 02 Nov 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 10 17 0 05 Oct 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 8 61 0 17 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 27 9 0 02 Mar 2022
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 23 20 0 14 Dec 2021
How to find a good image-text embedding for remote sensing visual question answering? Christel Chappuis Sylvain Lobry B. Kellenberger Bertrand Le Saux D. Tuia 27 20 0 24 Sep 2021
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering Jihyung Kil Cheng Zhang D. Xuan Wei-Lun Chao 53 20 0 13 Sep 2021
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration Yuhao Cui Zhou Yu Chunqi Wang Zhongzhou Zhao Ji Zhang Meng Wang Jun-chen Yu VLM 19 52 0 16 Aug 2021
An Improved Attention for Visual Question Answering Tanzila Rahman Shih-Han Chou Leonid Sigal Giuseppe Carenini 13 42 0 04 Nov 2020
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 21 17 0 20 Jan 2020
Modulated Self-attention Convolutional Network for VQA Jean-Benoit Delbrouck Antoine Maiorca Nathan Hubens Stéphane Dupont 13 1 0 08 Oct 2019
DNN-based cross-lingual voice conversion using Bottleneck Features M. K. Reddy K. S. Rao 16 4 0 09 Sep 2019
LXMERT: Learning Cross-Modality Encoder Representations from Transformers Hao Hao Tan Mohit Bansal VLM MLLM 49 2,444 0 20 Aug 2019
Zero-Shot Grounding of Objects from Natural Language Queries Arka Sadhu Kan Chen Ram Nevatia ObjD 20 156 0 20 Aug 2019
Attentional Feature-Pair Relation Networks for Accurate Face Recognition Bong-Nam Kang Yonghyun Kim Bongjin Jun Daijin Kim CVBM 9 37 0 17 Aug 2019
LoRMIkA: Local rule-based model interpretability with k-optimal associations Dilini Sewwandi Rajapaksha Christoph Bergmeir Wray L. Buntine 14 30 0 11 Aug 2019
An Empirical Study on Leveraging Scene Graphs for Visual Question Answering Cheng Zhang Wei-Lun Chao D. Xuan 21 50 0 28 Jul 2019
Frontal Low-rank Random Tensors for Fine-grained Action Segmentation Yan Zhang Krikamol Muandet Qianli Ma Heiko Neumann Siyu Tang 16 3 0 03 Jun 2019
Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding Zhou Yu Jun-chen Yu Chenchao Xiang Zhou Zhao Q. Tian Dacheng Tao ObjD 11 138 0 09 May 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,464 0 06 Jun 2016