Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss

Effective End-to-End Vision Language Pretraining with Semantic Visual Loss

18 January 2023

Fayao Liu

Guosheng Lin

Papers citing "Effective End-to-End Vision Language Pretraining with Semantic Visual Loss"

6 / 6 papers shown

Title
Lightweight Model Pre-training via Language Guided Knowledge Distillation Mingsheng Li Lin Zhang Mingzhen Zhu Zilong Huang Gang Yu Jiayuan Fan Tao Chen 29 0 0 17 Jun 2024
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains Zhaohuan Zhan Lisha Yu Sijie Yu Guang Tan LLMAG LM&Ro 45 10 0 17 May 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 56 4 0 15 Dec 2023
SpliceMix: A Cross-scale and Semantic Blending Augmentation Strategy for Multi-label Image Classification Lei Wang Yibing Zhan Leilei Ma Dapeng Tao Liang Ding Chen Gong 21 1 0 26 Nov 2023
Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question Answering Yi Cheng Hehe Fan Dongyun Lin Ying Sun Mohan S. Kankanhalli J. Lim 12 4 0 25 Jul 2023
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending Xingjian He Sihan Chen Fan Ma Zhicheng Huang Xiaojie Jin Zikang Liu Dongmei Fu Yi Yang J. Liu Jiashi Feng VLM CLIP 18 17 0 22 May 2023