Papers citing 'Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models'

Title
PoseFix: Correcting 3D Human Poses with Natural Language Ginger Delmas Philippe Weinzaepfel Francesc Moreno-Noguer Grégory Rogez 121 33 0 15 Sep 2023
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models Changming Xiao Qi Yang Feng Zhou Changshui Zhang 151 19 0 08 Sep 2023
Dual Relation Alignment for Composed Image Retrieval Xintong Jiang Yaxiong Wang Yujiao Wu Ming Wang Xueming Qian 70 6 0 05 Sep 2023
Learning with Multi-modal Gradient Attention for Explainable Composed Image Retrieval Prateksha Udhayanan Srikrishna Karanam Balaji Vasan Srinivasan 74 2 0 31 Aug 2023
CoVR: Learning Composed Video Retrieval from Web Video Captions Lucas Ventura Antoine Yang Cordelia Schmid Gül Varol 140 33 0 28 Aug 2023
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features Alberto Baldrati Marco Bertini Tiberio Uricchio Marco Bertini CLIP CoGe 102 44 0 22 Aug 2023
FashionNTM: Multi-turn Fashion Image Retrieval via Cascaded Memory Anwesan Pal Sahil Wadhwa Ayush Jaiswal Xu Zhang Yue Wu Rakesh Chada P. Natarajan Henrik I. Christensen 117 8 0 20 Aug 2023
Ranking-aware Uncertainty for Text-guided Image Retrieval Junyang Chen Hanjiang Lai 84 8 0 16 Aug 2023
GeneCIS: A Benchmark for General Conditional Image Similarity S. Vaze Nicolas Carion Ishan Misra VLM DiffM 151 34 0 13 Jun 2023
Zero-shot Composed Text-Image Retrieval Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie 97 27 0 12 Jun 2023
Chatting Makes Perfect: Chat-based Image Retrieval Matan Levy Rami Ben-Ari N. Darshan Dani Lischinski 176 20 0 31 May 2023
OpenVIS: Open-vocabulary Video Instance Segmentation Pinxue Guo Tony Huang Peiyang He Xuefeng Liu Tianjun Xiao Zhaoyu Chen Wenqiang Zhang VLM 120 19 0 26 May 2023
Candidate Set Re-ranking for Composed Image Retrieval with Dual Multi-modal Encoder Zheyuan Liu Weixuan Sun Damien Teney Stephen Gould 136 27 0 25 May 2023
TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation Jingyao Li Pengguang Chen Shengju Qian Jiaya Jia VLM 99 14 0 15 Apr 2023
FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion Vision-Language Pre-training Yunpeng Han Lisai Zhang Qingcai Chen Zhijian Chen Zhonghua Li Jianxin Yang Bo Zhao AI4TS VLM 105 15 0 11 Apr 2023
If At First You Don't Succeed: Test Time Re-ranking for Zero-shot, Cross-domain Retrieval Finlay G. C. Hudson W. Smith ViT 188 2 0 30 Mar 2023
Bi-directional Training for Composed Image Retrieval via Text Prompt Learning Zheyuan Liu Weixuan Sun Yicong Hong Damien Teney Stephen Gould 173 42 0 29 Mar 2023
Zero-Shot Composed Image Retrieval with Textual Inversion Alberto Baldrati Lorenzo Agnolucci Marco Bertini Marco Bertini 154 133 0 27 Mar 2023
CompoDiff: Versatile Composed Image Retrieval With Latent Diffusion Geonmo Gu Sanghyuk Chun Wonjae Kim HeeJae Jun Yoohoon Kang Sangdoo Yun DiffM 279 67 0 21 Mar 2023
Data Roaming and Quality Assessment for Composed Image Retrieval Matan Levy Rami Ben-Ari N. Darshan Dani Lischinski 161 41 0 16 Mar 2023
FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks Xiaoping Han Xiatian Zhu Licheng Yu Li Zhang Yi-Zhe Song Tao Xiang VLM 111 50 0 04 Mar 2023
Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval Kuniaki Saito Kihyuk Sohn Xiang Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister 173 140 0 06 Feb 2023
ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation Ziqi Zhou Bowen Zhang Yinjie Lei Lingqiao Liu Yifan Liu VLM 183 205 0 07 Dec 2022
Improving Commonsense in Vision-Language Models via Knowledge Graph Riddles Shuquan Ye Yujia Xie Dongdong Chen Yichong Xu Lu Yuan Chenguang Zhu Jing Liao VLM 83 17 0 29 Nov 2022
Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization Yiyang Chen Zhedong Zheng Wei Ji Leigang Qu Tat-Seng Chua 242 51 0 14 Nov 2022
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning Suvir Mirchandani Licheng Yu Mengjiao MJ Wang Animesh Sinha Wen-Jun Jiang Tao Xiang Ning Zhang 118 16 0 26 Oct 2022
FashionViL: Fashion-Focused Vision-and-Language Representation Learning Xiaoping Han Licheng Yu Xiatian Zhu Li Zhang Yi-Zhe Song Tao Xiang AI4TS 73 54 0 17 Jul 2022
Multimodal Learning with Transformers: A Survey Peng Xu Xiatian Zhu David Clifton ViT 304 656 0 13 Jun 2022
Training and challenging models for text-guided fashion image retrieval Eric Dodds Jack Culpepper Gaurav Srivastava 81 10 0 23 Apr 2022
UIGR: Unified Interactive Garment Retrieval Xiaoping Han Sen He Li Zhang Yi-Zhe Song Tao Xiang 92 7 0 06 Apr 2022
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity Ginger Delmas Rafael Sampaio de Rezende G. Csurka Diane Larlus VLM 119 116 0 15 Mar 2022
Gaudí: Conversational Interactions with Deep Representations to Generate Image Collections Victor S. Bursztyn Jennifer Healey Vishwa Vinay 35 2 0 05 Dec 2021
Edge-Cloud Polarization and Collaboration: A Comprehensive Survey for AI Jiangchao Yao Shengyu Zhang Yang Yao Feng Wang Jianxin Ma ... Kun Kuang Chao-Xiang Wu Leilei Gan Jingren Zhou Hongxia Yang 188 119 0 11 Nov 2021
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network Minchul Shin Yoonjae Cho ByungSoo Ko Geonmo Gu 109 48 0 07 Apr 2021