Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

17 November 2017

Jiuxiang Gu

Jianfei Cai

Papers citing "Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models"

30 / 30 papers shown

Title
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 144 0 0 21 Feb 2025
ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis Hongchen Tan Baocai Yin Kun Wei Xiuping Liu Xin Li 13 16 0 13 Apr 2023
Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study Mariya Hendriksen Svitlana Vakulenko E. Kuiper Maarten de Rijke 21 5 0 12 Jan 2023
Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim Nam-Won Kim Suha Kwak 16 37 0 30 Nov 2022
Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork Xin Yuan Zhe-nan Lin Jason Kuen Jianming Zhang John Collomosse 27 5 0 17 Aug 2022
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval Wenqiao Zhang Jiannan Guo Meng Li Haochen Shi Shengyu Zhang Juncheng Li Siliang Tang Yueting Zhuang 47 6 0 09 Jul 2022
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval Feilong Chen Xiuyi Chen Jiaxin Shi Duzhen Zhang Jianlong Chang Qi Tian VLM CLIP 32 6 0 24 May 2022
DR-GAN: Distribution Regularization for Text-to-Image Generation Hongchen Tan Xiuping Liu Baocai Yin Xin Li GAN 22 35 0 17 Apr 2022
On Distinctive Image Captioning via Comparing and Reweighting Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 30 16 0 08 Apr 2022
Two-stream Hierarchical Similarity Reasoning for Image-text Matching Ran Chen Hanli Wang Lei Wang Sam Kwong 13 9 0 10 Mar 2022
Show, Write, and Retrieve: Entity-aware Article Generation and Retrieval Zhongping Zhang Yiwen Gu Bryan A. Plummer 40 2 0 11 Dec 2021
Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification Z. Ding Changxing Ding Zhiyin Shao Dacheng Tao 19 132 0 27 Jul 2021
Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model for Protein Design Yue Cao Payel Das Vijil Chenthamarakshan Pin-Yu Chen Igor Melnyk Yang Shen 16 45 0 24 Jun 2021
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning Amaia Salvador Erhan Gundogdu Loris Bazzani M. Donoser ViT 10 57 0 24 Mar 2021
Image-to-Image Retrieval by Learning Similarity between Scene Graphs Sangwoong Yoon Woo-Young Kang Sungwook Jeon SeongEun Lee C. Han Jonghun Park Eun-Sol Kim 3DH 20 39 0 29 Dec 2020
Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion Yang Wang 33 195 0 15 Jun 2020
Towards Robust Pattern Recognition: A Review Xu-Yao Zhang Cheng-Lin Liu C. Suen OOD HAI 19 102 0 12 Jun 2020
Graph Structured Network for Image-Text Matching Chunxiao Liu Zhendong Mao Tianzhu Zhang Hongtao Xie Bin Wang Yongdong Zhang 9 232 0 01 Apr 2020
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism Hao Wang Doyen Sahoo Chenghao Liu Ke Shu Palakorn Achananuparp Ee-Peng Lim S. Hoi 10 45 0 09 Mar 2020
Cross-modality Person re-identification with Shared-Specific Feature Transfer Yan Lu Yue Wu B. Liu Tianzhu Zhang Baopu Li Qi Chu Nenghai Yu 6 264 0 28 Feb 2020
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval Hadi Abdi Khojasteh Ebrahim Ansari Parvin Razzaghi Akbar Karimi VLM 6 4 0 23 Feb 2020
Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings Shweta Mahajan Iryna Gurevych Stefan Roth DRL 13 36 0 16 Feb 2020
Show, Recall, and Tell: Image Captioning with Recall Mechanism Li Wang Zechen Bai Yonghua Zhang Hongtao Lu 14 67 0 15 Jan 2020
Target-Oriented Deformation of Visual-Semantic Embedding Space Takashi Matsubara 18 7 0 15 Oct 2019
Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations Po-Yao (Bernie) Huang Xiaojun Chang Alexander G. Hauptmann 17 25 0 30 Sep 2019
Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators Kuang-Huei Lee Hamid Palangi Xi Chen Houdong Hu Jianfeng Gao VLM 16 37 0 22 Sep 2019
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval Zihao W. Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao VLM 23 299 0 12 Sep 2019
Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking Tan Wang Xing Xu Yang Yang Alan Hanjalic Heng Tao Shen Jingkuan Song 17 145 0 12 Aug 2019
MMED: A Multi-domain and Multi-modality Event Dataset Zhenguo Yang Zehang Lin Min Cheng Qing Li Wenyin Liu 23 9 0 04 Apr 2019
Image Chat: Engaging Grounded Conversations Kurt Shuster Samuel Humeau Antoine Bordes Jason Weston 23 115 0 02 Nov 2018