Fine-Grained Semantically Aligned Vision-Language Pre-Training

Fine-Grained Semantically Aligned Vision-Language Pre-Training

4 August 2022

Papers citing "Fine-Grained Semantically Aligned Vision-Language Pre-Training"

15 / 15 papers shown

Title
Multi-Granular Multimodal Clue Fusion for Meme Understanding Li Zheng Hao Fei Ting Dai Zuquan Peng Fei Li Huisheng Ma Chong Teng Donghong Ji 50 0 0 16 Mar 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 45 1 0 31 Dec 2024
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang H. Zhang Yueting Zhuang DiffM 95 15 0 24 Nov 2024
UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity Jia-li Zuo Hanyu Zhou Ying Nie Feng Zhang Tianyu Guo Nong Sang Yunhe Wang Changxin Gao 25 17 0 06 Dec 2023
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang-rui Liu Xiang Ji Li-ming Yuan Jie Chen 25 49 0 25 Mar 2023
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World Qifan Yu Juncheng Li Yuehua Wu Siliang Tang Wei Ji Yueting Zhuang 25 34 0 23 Mar 2023
TIER: Text-Image Entropy Regularization for CLIP-style models Anil Palepu Andrew L. Beam MedIm 16 6 0 13 Dec 2022
Mask the Correct Tokens: An Embarrassingly Simple Approach for Error Correction Kai Shen Yichong Leng Xuejiao Tan Si-Qi Tang Yuan Zhang Wenjie Liu Ed Lin 22 13 0 23 Nov 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 32 157 0 25 Aug 2022
Dilated Context Integrated Network with Cross-Modal Consensus for Temporal Emotion Localization in Videos Juncheng Billy Li Junlin Xie Linchao Zhu Long Qian Siliang Tang ... Haochen Shi Shengyu Zhang Longhui Wei Qi Tian Yueting Zhuang 21 12 0 03 Aug 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 388 4,110 0 28 Jan 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
A Unified Game-Theoretic Interpretation of Adversarial Robustness Jie Ren Die Zhang Yisen Wang Lu Chen Zhanpeng Zhou ... Xu Cheng Xin Eric Wang Meng Zhou Jie Shi Quanshi Zhang AAML 64 22 0 12 Mar 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 926 0 24 Sep 2019