Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training

Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training

15 June 2023

Liang Wang

Papers citing "Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training"

6 / 6 papers shown

Title
FG-CLIP: Fine-Grained Visual and Textual Alignment Chunyu Xie Bin Wang Fanjing Kong Jincheng Li Dawei Liang Gengshen Zhang Dawei Leng Yuhui Yin CLIP VLM 42 0 0 08 May 2025
From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval Yabing Wang Zhuotao Tian Qingpei Guo Zheng Qin Sanping Zhou Ming Yang Le Wang 70 0 0 25 Apr 2025
Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching Shiyang Yan Li Yu Yuan Xie 29 33 0 21 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao Ying Zhang Lingyun Ma Huchuan Lu 202 331 0 05 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 926 0 24 Sep 2019