MUTAN: Multimodal Tucker Fusion for Visual Question Answering

18 May 2017

Papers citing "MUTAN: Multimodal Tucker Fusion for Visual Question Answering"

50 / 272 papers shown

Title
Medical visual question answering using joint self-supervised learning Yuan Zhou Jing Mei Yiqin Yu T. Syeda-Mahmood MedIm 30 1 0 25 Feb 2023
Oriented Object Detection in Optical Remote Sensing Images using Deep Learning: A Survey Kunlin Wang Zi Wang Zhang Li Ang Su Xichao Teng Minhao Liu Qifeng Yu Qifeng Yu ObjD 83 8 0 21 Feb 2023
Multi-modal Machine Learning in Engineering Design: A Review and Future Directions Binyang Song Ruilin Zhou Faez Ahmed AI4CE 35 40 0 14 Feb 2023
Neural Architecture Search with Multimodal Fusion Methods for Diagnosing Dementia Michail Chatzianastasis Loukas Ilias D. Askounis Michalis Vazirgiannis 26 3 0 12 Feb 2023
Learning to Agree on Vision Attention for Visual Commonsense Reasoning Zhenyang Li Yangyang Guo Ke-Jyun Wang Fan Liu Liqiang Nie Mohan S. Kankanhalli 32 10 0 04 Feb 2023
Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning Jian Zhu Hanli Wang Miaojing Shi LRM 11 4 0 30 Jan 2023
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images Kun Li G. Vosselman M. Yang 23 5 0 23 Jan 2023
Tensor Networks Meet Neural Networks: A Survey and Future Perspectives Maolin Wang Y. Pan Zenglin Xu Xiangli Yang Guangxi Li A. Cichocki Andrzej Cichocki 43 19 0 22 Jan 2023
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges R. Zakari Jim Wilson Owusu Hailin Wang Ke Qin Zaharaddeen Karami Lawal Yue-hong Dong LRM 25 16 0 26 Dec 2022
Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering Jialin Wu Raymond J. Mooney RALM 9 9 0 18 Oct 2022
Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions Paul Pu Liang Amir Zadeh Louis-Philippe Morency 16 60 0 07 Sep 2022
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment Mustafa Shukor Guillaume Couairon Matthieu Cord VLM CLIP 19 27 0 29 Aug 2022
FashionVQA: A Domain-Specific Visual Question Answering System Min Wang A. Mahjoubfar Anupama Joshi 19 3 0 24 Aug 2022
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding Zihan Ding Zixiang Ding Tianrui Hui Junshi Huang Xiaoming Wei Xiaolin K. Wei Si Liu 12 12 0 11 Aug 2022
CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning Adam Dahlgren Lindström Savitha Sam Abraham 6 47 0 10 Aug 2022
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base Jinyeong Chae Jihie Kim 11 2 0 27 Jul 2022
Semantic-aware Modular Capsule Routing for Visual Question Answering Yudong Han Jianhua Yin Jianlong Wu Yin-wei Wei Liqiang Nie 25 7 0 21 Jul 2022
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering Yanan Wang Michihiro Yasunaga Hongyu Ren Shinya Wada J. Leskovec 21 17 0 23 May 2022
Gender and Racial Bias in Visual Question Answering Datasets Yusuke Hirota Yuta Nakashima Noa Garcia FaML 127 46 0 17 May 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 32 33 0 10 May 2022
Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures Yongji Wu Matthew Lentz Danyang Zhuo Yao Lu 21 22 0 10 May 2022
From Easy to Hard: Learning Language-guided Curriculum for Visual Question Answering on Remote Sensing Data Zhenghang Yuan Lichao Mou Q. Wang Xiao Xiang Zhu 11 60 0 06 May 2022
Attention in Reasoning: Dataset, Analysis, and Modeling Shi Chen Ming Jiang Jinhui Yang Qi Zhao LRM 25 3 0 20 Apr 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 23 0 0 17 Apr 2022
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks Gen Luo Yiyi Zhou Xiaoshuai Sun Yan Wang Liujuan Cao Yongjian Wu Feiyue Huang Rongrong Ji ViT 4 43 0 16 Apr 2022
SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering Vipul Gupta Zhuowan Li Adam Kortylewski Chenyu Zhang Yingwei Li Alan Yuille 30 43 0 05 Apr 2022
Question-Driven Graph Fusion Network For Visual Question Answering Yuxi Qian Yuncong Hu Ruonan Wang Fangxiang Feng Xiaojie Wang GNN 16 10 0 03 Apr 2022
Co-VQA : Answering by Interactive Sub Question Sequence Ruonan Wang Yuxi Qian Fangxiang Feng Xiaojie Wang Huixing Jiang LRM 21 16 0 02 Apr 2022
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang Difei Gao Licheng Yu Stan Weixian Lei Matt Feiszli Mike Zheng Shou 9 24 0 01 Apr 2022
Large-scale Bilingual Language-Image Contrastive Learning ByungSoo Ko Geonmo Gu VLM 19 14 0 28 Mar 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 11 62 0 17 Mar 2022
Can you even tell left from right? Presenting a new challenge for VQA Sairaam Venkatraman Rishi Rao S. Balasubramanian C. Vorugunti R. R. Sarma CoGe 8 0 0 15 Mar 2022
Dynamic Key-value Memory Enhanced Multi-step Graph Reasoning for Knowledge-based Visual Question Answering Mingxiao Li Marie-Francine Moens 9 12 0 06 Mar 2022
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models Feng Li Hao Zhang Yi-Fan Zhang S. Liu Jian Guo L. Ni Pengchuan Zhang Lei Zhang AI4TS VLM 18 36 0 03 Mar 2022
Joint Answering and Explanation for Visual Commonsense Reasoning Zhenyang Li Yangyang Guo Ke-Jyun Wang Yin-wei Wei Liqiang Nie Mohan S. Kankanhalli 19 16 0 25 Feb 2022
Phrase-Based Affordance Detection via Cyclic Bilateral Interaction Liangsheng Lu Wei Zhai Hongcheng Luo Yu Kang Yang Cao 19 19 0 24 Feb 2022
A Review on Methods and Applications in Multimodal Deep Learning Summaira Jabeen Xi Li Muhammad Shoib Amin Abdul Jabbar VLM HAI 24 88 0 18 Feb 2022
An experimental study of the vision-bottleneck in VQA Pierre Marza Corentin Kervadec G. Antipov M. Baccouche Christian Wolf 18 1 0 14 Feb 2022
Can Open Domain Question Answering Systems Answer Visual Knowledge Questions? Jiawen Zhang Abhijit Mishra Avinesh P.V.S Siddharth Patwardhan Sachin Agarwal 24 0 0 09 Feb 2022
Multi-modal Sensor Fusion for Auto Driving Perception: A Survey Keli Huang Botian Shi Xiang Li Xin Li Siyuan Huang Yikang Li 19 134 0 06 Feb 2022
MGA-VQA: Multi-Granularity Alignment for Visual Question Answering Peixi Xiong Yilin Shen Hongxia Jin 17 5 0 25 Jan 2022
COIN: Counterfactual Image Generation for VQA Interpretation Zeyd Boukhers Timo Hartmann Jan Jurjens 13 7 0 10 Jan 2022
Comprehensive Visual Question Answering on Point Clouds through Compositional Scene Manipulation Xu Yan Zhihao Yuan Yuhao Du Yinghong Liao Yao Guo Zhen Li Shuguang Cui 3DPC CoGe 21 14 0 22 Dec 2021
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 23 20 0 14 Dec 2021
MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided Multimodal Attention for Textbook Question Answering Fangzhi Xu Qika Lin J. Liu Lingling Zhang Tianzhe Zhao Qianyi Chai Yudai Pan 9 2 0 06 Dec 2021
Video and Text Matching with Conditioned Embeddings Ameen Ali Idan Schwartz Tamir Hazan Lior Wolf 83 13 0 21 Oct 2021
FLAME: Facial Landmark Heatmap Activated Multimodal Gaze Estimation Neelabh Sinha Michal Balazia F. Brémond CVBM 3DH 25 9 0 10 Oct 2021
How to find a good image-text embedding for remote sensing visual question answering? Christel Chappuis Sylvain Lobry B. Kellenberger Bertrand Le Saux D. Tuia 32 20 0 24 Sep 2021
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 402 0 10 Sep 2021
Improved RAMEN: Towards Domain Generalization for Visual Question Answering Bhanuka Gamage Lim Chern Hong 22 1 0 06 Sep 2021