SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels

14 March 2021

Papers citing "SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels"

5 / 5 papers shown

Title
Missing-modality Enabled Multi-modal Fusion Architecture for Medical Data Muyu Wang Shiyu Fan Yichen Li Hui Chen MedIm 17 1 0 27 Sep 2023
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 41 522 0 13 Jun 2022
Achieving Human Parity on Visual Question Answering Ming Yan Haiyang Xu Chenliang Li Junfeng Tian Bin Bi ... Ji Zhang Songfang Huang Fei Huang Luo Si Rong Jin 24 12 0 17 Nov 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 46 858 0 26 Apr 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 23 148 0 05 Mar 2021