X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval

28 March 2022

Papers citing "X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval"

50 / 88 papers shown

Title
TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval Xiaolun Jing Genke Yang Jian Chu 21 0 0 07 Apr 2025
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval Boseung Jeong Jicheol Park Sungyeon Kim Suha Kwak 33 0 0 03 Apr 2025
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 33 0 0 02 Apr 2025
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval Arun V. Reddy Alexander Martin Eugene Yang Andrew Yates Kate Sanders Kenton W. Murray Reno Kriz Celso M. De Melo Benjamin Van Durme Rama Chellappa 44 1 0 24 Mar 2025
Generative Modeling of Class Probability for Multi-Modal Representation Learning Jungkyoo Shin Bumsoo Kim Eunwoo Kim 50 1 0 21 Mar 2025
Continual Text-to-Video Retrieval with Frame Fusion and Task-Aware Routing Zecheng Zhao Zhi Chen Zi-Rui Huang S. Sadiq Tong Chen 36 0 0 13 Mar 2025
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval Zengrong Lin Zheng Wang Tianwen Qian Pan Mu Sixian Chan Cong Bai 42 0 0 13 Mar 2025
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions Chan hur Jeong-hun Hong Dong-hun Lee Dabin Kang Semin Myeong Sang-hyo Park Hyeyoung Park 51 0 0 07 Mar 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 92 4 0 24 Feb 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 45 1 0 31 Dec 2024
GFG -- Gender-Fair Generation: A CALAMITA Challenge Simona Frenda Andrea Piergentili Beatrice Savoldi Marco Madeddu Martina Rosola Silvia Casola Chiara Ferrando V. Patti Matteo Negri L. Bentivogli 30 2 0 31 Dec 2024
CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives Armin Saghafian Amirmohammad Izadi Negin Hashemi Dijujin M. Baghshah 64 0 0 29 Nov 2024
TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm Bingqing Zhang Zhuo Cao Heming Du Xin Yu Xue Li Jiajun Liu Sen Wang VGen 16 0 0 30 Sep 2024
TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval Leqi Shen Tianxiang Hao Tao He Sicheng Zhao Pengzhang Liu Yongjun Bao Guiguang Ding Guiguang Ding 52 6 0 02 Sep 2024
SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval Longtao Jiang Min Wang Zecheng Li Yao Fang Wen-gang Zhou Houqiang Li SLR 21 2 0 23 Jul 2024
An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval Mahesh Kandhare Thibault Gisselbrecht 35 4 0 22 Jul 2024
Open Vocabulary Multi-Label Video Classification Rohit Gupta Mamshad Nayeem Rizve Jayakrishnan Unnikrishnan Ashish Tawari Son Tran Mubarak Shah Benjamin Z. Yao Trishul M. Chilimbi VLM 59 1 0 12 Jul 2024
KeyVideoLLM: Towards Large-scale Video Keyframe Selection Hao Liang Jiapeng Li Tianyi Bai Xijie Huang Linzhuang Sun Zhengren Wang Conghui He Bin Cui Chong Chen Wentao Zhang VGen 24 7 0 03 Jul 2024
Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval Wenjun Li Shudong Wang Dong Zhao Shenghui Xu Zhaoming Pan Zhimin Zhang 12 0 0 21 Jun 2024
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter Meng Cao Haoran Tang Jinfa Huang Peng Jin Can Zhang Ruyang Liu Long Chen Xiaodan Liang Li-ming Yuan Ge Li 85 11 0 29 May 2024
Text-Video Retrieval with Global-Local Semantic Consistent Learning Haonan Zhang Pengpeng Zeng Lianli Gao Jingkuan Song Yihang Duan Xinyu Lyu Hengtao Shen VLM CLIP 23 2 0 21 May 2024
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval Xuzheng Yu Chen Jiang Xingning Dong Tian Gan Ming Yang Qingpei Guo 30 1 0 22 Apr 2024
ProTA: Probabilistic Token Aggregation for Text-Video Retrieval Han Fang Xianghao Zang Chao Ban Zerun Feng Lanxiang Zhou Zhongjiang He Yongxiang Li Hao Sun 22 1 0 18 Apr 2024
Koala: Key frame-conditioned long video-LLM Reuben Tan Ximeng Sun Ping Hu Jui-hsien Wang Hanieh Deilamsalehy Bryan A. Plummer Bryan C. Russell Kate Saenko 38 35 0 05 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 33 1 0 01 Apr 2024
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang Guohao Sun Pichao Wang Dongfang Liu S. Dianat Majid Rabbani Raghuveer M. Rao Zhiqiang Tao VGen 47 2 0 26 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul M. Chilimbi VLM AI4TS 43 4 0 21 Mar 2024
Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding Chaolei Tan Jian-Huang Lai Wei-Shi Zheng Jianfang Hu AI4TS 26 5 0 18 Mar 2024
Video Editing for Video Retrieval Bin Zhu Kevin Flanagan A. Fragomeni Michael Wray Dima Damen CLIP 21 0 0 04 Feb 2024
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval Xiangpeng Yang Linchao Zhu Xiaohan Wang Yi Yang VLM 21 4 0 19 Jan 2024
FiGCLIP: Fine-Grained CLIP Adaptation via Densely Annotated Videos S. DarshanSingh Zeeshan Khan Makarand Tapaswi VLM CLIP 21 3 0 15 Jan 2024
Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation Learning Kaibin Tian Yanhua Cheng Yi Liu Xinglin Hou Quan Chen Han Li 12 3 0 01 Jan 2024
Data-Efficient Multimodal Fusion on a Single GPU Noël Vouitsis Zhaoyan Liu S. Gorti Valentin Villecroze Jesse C. Cresswell Guangwei Yu G. Loaiza-Ganem M. Volkovs 32 3 0 15 Dec 2023
WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge Huy Le Tung Kieu Anh Nguyen Ngan Le VGen 19 1 0 15 Dec 2023
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 22 3 0 11 Dec 2023
Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning Zaber Ibn Abdul Hakim Najibul Haque Sarker Rahul Pratap Singh Bishmoy Paul Ali Dabouei Min Xu 15 1 0 10 Dec 2023
RTQ: Rethinking Video-language Understanding Based on Image-text Model Xiao Wang Yaoyu Li Tian Gan Zheng Zhang Jingjing Lv Liqiang Nie 11 6 0 01 Dec 2023
CAST: Cross-Attention in Space and Time for Video Action Recognition Dongho Lee Jongseo Lee Jinwoo Choi EgoV 22 10 0 30 Nov 2023
VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models Shicheng Li Lei Li Shuhuai Ren Yuanxin Liu Yi Liu Rundong Gao Xu Sun Lu Hou 24 28 0 29 Nov 2023
Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval Konstantin Yakovlev Gregory Polyakov I. Alimova Alexander Podolskiy A. Bout Sergey I. Nikolenko Irina Piontkovskaya CLIP 14 1 0 14 Nov 2023
An Empirical Study of Frame Selection for Text-to-Video Retrieval Mengxia Wu Min Cao Yang Bai Ziyin Zeng Chen Chen Liqiang Nie Min Zhang 12 0 0 01 Nov 2023
Sound of Story: Multi-modal Storytelling with Audio Jaeyeon Bae Seokhoon Jeong Seokun Kang Namgi Han Jae-Yon Lee Hyounghun Kim Taehwan Kim 13 2 0 30 Oct 2023
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou ViT 29 28 0 29 Oct 2023
InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution Xiangru Jian Yimu Wang 17 4 0 20 Oct 2023
Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery Banks Yimu Wang Xiangru Jian Bo Xue 17 9 0 17 Oct 2023
BeatDance: A Beat-Based Model-Agnostic Contrastive Learning Framework for Music-Dance Retrieval Kaixing Yang Xukun Zhou Xulong Tang Ran Diao Hongyan Liu Jun He Zhaoxin Fan 19 1 0 16 Oct 2023
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval Hao Li Marie-Jeanne Lesot Lianli Gao Xiaosu Zhu Christophe Marsala EDL 14 11 0 29 Sep 2023
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning Chen Jiang Hong Liu Xuzheng Yu Qing Wang Yuan-Chia Cheng ... Zhongyi Liu Qingpei Guo Wei Chu Ming Yang Yuan Qi 13 10 0 20 Sep 2023
Unified Coarse-to-Fine Alignment for Video-Text Retrieval Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Mohit Bansal 83 41 0 18 Sep 2023
Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention Burak Satar Huaiyu Zhu Hanwang Zhang Joo-Hwee Lim CML 30 0 0 17 Sep 2023