v1v2v3 (latest)

CoVR: Learning Composed Video Retrieval from Web Video Captions

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

28 August 2023

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "CoVR: Learning Composed Video Retrieval from Web Video Captions"

23 / 23 papers shown

Title
RePainter: Empowering E-commerce Object Removal via Spatial-matting Reinforcement Learning Zipeng Guo Lichen Ma Xiaolong Fu Gaojing Zhou L. Yang ... Zhen Chen Yu Shi Junshi Huang Jason Li Chao Gou DiffM 78 0 0 09 Oct 2025
Addressing the ID-Matching Challenge in Long Video Captioning Zhantao Yang Huangji Wang Ruili Feng Han Zhang Yuting Hu Shangwen Zhu Junyan Li Yu Liu Fan Cheng 88 0 0 08 Oct 2025
Personalizing Retrieval using Joint Embeddings or "the Return of Fluffy" Bruno Korbar Andrew Zisserman 74 0 0 06 Oct 2025
Generalized Contrastive Learning for Universal Multimodal Retrieval Jungsoo Lee Janghoon Cho Hyojin Park Munawar Hayat Kyuwoong Hwang Fatih Porikli Sungha Choi VLM 136 1 0 30 Sep 2025
ConViS-Bench: Estimating Video Similarity Through Semantic Concepts Benedetta Liberatori Alessandro Conti Lorenzo Vaquero Yiming Wang Elisa Ricci Paolo Rota 100 1 0 23 Sep 2025
Beyond Simple Edits: Composed Video Retrieval with Dense Modifications Omkar Thawakar Dmitry Demidov Ritesh Thawkar Rao Muhammad Anwer M. Shah Fahad Shahbaz Khan Salman Khan VGen 76 0 0 19 Aug 2025
Composed Object Retrieval: Object-level Retrieval via Composed Expressions Tong Wang Guanyu Yang Nian Liu Zongyan Han Jinxing Zhou Salman Khan Fahad Shahbaz Khan 119 0 0 06 Aug 2025
On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey Meishan Zhang Xin Zhang X. Zhao Shouzheng Huang Baotian Hu Min Zhang 177 3 0 28 Jul 2025
From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos Animesh Gupta Jay Parmar Ishan R. Dave M. Shah 257 1 0 05 Jun 2025
ConText-CIR: Learning from Concepts in Text for Composed Image RetrievalComputer Vision and Pattern Recognition (CVPR), 2025 Eric Xing Pranavi Kolouju Robert Pless Abby Stylianou Nathan Jacobs 232 2 0 27 May 2025
DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval Yuxin Yang Yinan Zhou Yuxin Chen Ziqi Zhang Zongyang Ma ... Bing Li Lin Song Jun Gao Peng Li Weiming Hu 394 1 0 23 May 2025
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 394 1 0 02 Apr 2025
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data Yiqun Duan Sameera Ramasinghe Stephen Gould Ajanthan Thalaiyasingam 350 3 0 01 Apr 2025
FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval Zixu Li Zhiheng Fu Yupeng Hu Zhiwei Chen Haokun Wen Liqiang Nie 329 27 0 27 Mar 2025
Can Text-to-Video Generation help Video-Language Alignment?Computer Vision and Pattern Recognition (CVPR), 2025 Luca Zanella Goran Frehse Willi Menapace Sergey Tulyakov Yiming Wang Elisa Ricci DiffM VGen 266 1 0 24 Mar 2025
Composed Multi-modal Retrieval: A Survey of Approaches and Applications Kun Zhang Jingyu Li Zhiyu Li Jingjing Zhang F. Li ... Nan Chen Lei Zhang Yongdong Zhang Zhendong Mao S.Kevin Zhou 361 1 0 03 Mar 2025
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 1.0K 0 0 21 Feb 2025
A Comprehensive Survey on Composed Image Retrieval Xuemeng Song Haoqiang Lin Haokun Wen Bohan Hou Mingzhu Xu Liqiang Nie 409 7 0 19 Feb 2025
Triplet Synthesis For Enhancing Composed Image Retrieval via Counterfactual Image GenerationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025 Kenta Uesugi Naoki Saito Keisuke Maeda Takahiro Ogawa Miki Haseyama 187 0 0 22 Jan 2025
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 474 26 1 09 Jun 2024
iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image RetrievalIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 Lorenzo Agnolucci Alberto Baldrati Marco Bertini Marco Bertini 334 19 0 05 May 2024
Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval Junyang Chen Hanjiang Lai VLM 362 16 0 13 Nov 2023
Billion-scale similarity search with GPUsIEEE Transactions on Big Data (TBD), 2017 Jeff Johnson Matthijs Douze Edouard Grave 857 4,405 0 28 Feb 2017