X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

28 March 2022

Papers citing "X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval"

38 / 88 papers shown

Title
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval Nina Shvetsova Anna Kukleva Bernt Schiele Hilde Kuehne DiffM 23 3 0 16 Sep 2023
A Survey on Interpretable Cross-modal Reasoning Dizhan Xue Shengsheng Qian Zuyi Zhou Changsheng Xu LRM 24 4 0 05 Sep 2023
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval Chaorui Deng Qi Chen Pengda Qin Dave Zhenyu Chen Qi Wu VLM CLIP 36 29 0 15 Aug 2023
Learning Implicit Entity-object Relations by Bidirectional Generative Alignment for Multimodal NER Feng Chen Jiajia Liu Kaixiang Ji Wang Ren Jian Wang Jingdong Wang 19 8 0 03 Aug 2023
TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval Kaibin Tian Rui Zhao Hu Hu Runquan Xie Fengzong Lian Zhanhui Kang Xirong Li CLIP 14 0 0 02 Aug 2023
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar 39 12 0 24 Jul 2023
Fine-grained Text-Video Retrieval with Frozen Image Encoders Zuozhuo Dai Fang Shao Qingkun Su Zilong Dong Siyu Zhu 162 1 0 14 Jul 2023
TVPR: Text-to-Video Person Retrieval and a New Benchmark Fan Ni Xu Zhang Jianhui Wu Guan-Nan Dong Aichun Zhu Hui Liu Yue Zhang 27 0 0 14 Jul 2023
ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models Avinash Madasu Vasudev Lal CoGe 32 3 0 28 Jun 2023
Meta-Personalizing Vision-Language Models to Find Named Instances in Video Chun-Hsiao Yeh Bryan C. Russell Josef Sivic Fabian Caba Heilbron Simon Jenni VLM MLLM 39 9 0 16 Jun 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 18 31 0 20 May 2023
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval Han Fang Zhifei Yang Xianghao Zang Chao Ban Hao Sun VGen 17 2 0 13 May 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Mohit Bansal 31 129 0 11 May 2023
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection Pilhyeon Lee Taeoh Kim Minho Shim Dongyoon Wee H. Byun 16 11 0 30 Mar 2023
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang-rui Liu Xiang Ji Li-ming Yuan Jie Chen 23 48 0 25 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 16 52 0 17 Mar 2023
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening Min Cao Yang Bai Jingyao Wang Ziqiang Cao Liqiang Nie Min Zhang 12 0 0 14 Mar 2023
Improving Text-Audio Retrieval by Text-aware Attention Pooling and Prior Matrix Revised Loss Yifei Xin Dongchao Yang Yuexian Zou 20 30 0 10 Mar 2023
Deep Learning for Video-Text Retrieval: a Review Cunjuan Zhu Qi Jia Wei-Neng Chen Yanming Guo Yu Liu 19 14 0 24 Feb 2023
Video-Text Retrieval by Supervised Sparse Multi-Grained Learning Yimu Wang Peng Shi 6 5 0 19 Feb 2023
Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring Ruyang Liu Jingjia Huang Ge Li Jiashi Feng Xing Wu Thomas H. Li AI4TS CLIP VLM 21 45 0 26 Jan 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 17 45 0 16 Jan 2023
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval Siteng Huang Biao Gong Yulin Pan Jianwen Jiang Yiliang Lv Yuyuan Li Donglin Wang VLM VPVLM 8 41 0 23 Nov 2022
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jing Chen VLM 16 63 0 21 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 38 35 0 17 Nov 2022
3D-CSL: self-supervised 3D context similarity learning for Near-Duplicate Video Retrieval Rui Deng Qianyu Wu Yuke Li ViT 15 4 0 10 Nov 2022
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling Dongsheng Chen Chaofan Tao Lu Hou Lifeng Shang Xin Jiang Qun Liu VLM 19 18 0 21 Oct 2022
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames Ning Han Xun Yang Ee-Peng Lim Hao Chen Qianru Sun 26 3 0 16 Oct 2022
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval Xing Wu Chaochen Gao Zijia Lin Zhongyuan Wang Jizhong Han Songlin Hu 24 7 0 13 Oct 2022
Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval Zheng Li Caili Guo Xin Eric Wang Zerun Feng Jenq-Neng Hwang Zhongtian Du VLM 8 2 0 28 Sep 2022
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment Hongwei Xue Yuchong Sun Bei Liu Jianlong Fu Rui Song Houqiang Li Jiebo Luo CLIP VLM 20 68 0 14 Sep 2022
M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval Shuo Liu Weize Quan Mingyuan Zhou Sihong Chen Jian Kang Zhenlan Zhao Chen Chen Dong-Ming Yan 8 0 0 16 Aug 2022
Clover: Towards A Unified Video-Language Alignment and Fusion Model Jingjia Huang Yinan Li Jiashi Feng Xinglong Wu Xiaoshuai Sun Rongrong Ji VLM 19 46 0 16 Jul 2022
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound Yan-Bo Lin Jie Lei Mohit Bansal Gedas Bertasius 26 39 0 06 Apr 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 302 116 0 24 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 401 594 0 21 Jul 2020