UATVR: Uncertainty-Adaptive Text-Video Retrieval

16 January 2023

Jingdong Wang

Papers citing "UATVR: Uncertainty-Adaptive Text-Video Retrieval"

37 / 37 papers shown

Title
Visual Text Processing: A Comprehensive Review and Unified Evaluation Yan Shu Weichao Zeng Fangmin Zhao Zeyu Chen Z. Li ... Paolo Rota Xiang Bai Lianwen Jin Xu-Cheng Yin N. Sebe CoGe 52 0 0 30 Apr 2025
Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval WonJun Moon Cheol-Ho Cho Woojin Jun Minho Shim Taeoh Kim Inwoong Lee Dongyoon Wee Jae-Pil Heo 22 0 0 17 Apr 2025
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval Boseung Jeong Jicheol Park Sungyeon Kim Suha Kwak 29 0 0 03 Apr 2025
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 33 0 0 02 Apr 2025
Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition Yifei Zhang Chang-Shu Liu Jin Wei Xiaomeng Yang Yu Zhou Can Ma Xiangyang Ji 52 1 0 24 Mar 2025
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval Arun V. Reddy Alexander Martin Eugene Yang Andrew Yates Kate Sanders Kenton W. Murray Reno Kriz Celso M. De Melo Benjamin Van Durme Rama Chellappa 44 1 0 24 Mar 2025
Generative Modeling of Class Probability for Multi-Modal Representation Learning Jungkyoo Shin Bumsoo Kim Eunwoo Kim 46 1 0 21 Mar 2025
Continual Text-to-Video Retrieval with Frame Fusion and Task-Aware Routing Zecheng Zhao Zhi Chen Zi-Rui Huang S. Sadiq Tong Chen 36 0 0 13 Mar 2025
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval Zengrong Lin Zheng Wang Tianwen Qian Pan Mu Sixian Chan Cong Bai 38 0 0 13 Mar 2025
Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions Chan hur Jeong-hun Hong Dong-hun Lee Dabin Kang Semin Myeong Sang-hyo Park Hyeyoung Park 45 0 0 07 Mar 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 42 1 0 31 Dec 2024
Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question Answering Sai Bhargav Rongali M. Cui Ankit Jha Neha Bhargava Saurabh Prasad Biplab Banerjee 67 0 0 12 Dec 2024
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval Gangyan Zeng Yuan Zhang Jin Wei Dongbao Yang Peng Zhang Yiwen Gao Xugong Qin Yu Zhou VLM CLIP 13 0 0 01 Aug 2024
MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline D. Han Eunhwan Park Gisang Lee Adam Lee Nojun Kwak 27 2 0 17 Jul 2024
Dense Connector for MLLMs Huanjin Yao Wenhao Wu Taojiannan Yang Yuxin Song Mengxi Zhang Haocheng Feng Yifan Sun Zhiheng Li Wanli Ouyang Jingdong Wang MLLM VLM 24 16 0 22 May 2024
FreeVA: Offline MLLM as Training-Free Video Assistant Wenhao Wu VLM OffRL 19 19 0 13 May 2024
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang Guohao Sun Pichao Wang Dongfang Liu S. Dianat Majid Rabbani Raghuveer M. Rao Zhiqiang Tao VGen 36 2 0 26 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul M. Chilimbi VLM AI4TS 32 4 0 21 Mar 2024
Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing Yan Shu Weichao Zeng Zhenhang Li Fangmin Zhao Yu Zhou 22 3 0 05 Feb 2024
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 14 3 0 11 Dec 2023
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning Huanjin Yao Wenhao Wu Zhiheng Li VLM 84 9 0 27 Nov 2023
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? Wenhao Wu Huanjin Yao Mengxi Zhang Yuxin Song Wanli Ouyang Jingdong Wang VLM 11 29 0 27 Nov 2023
An Empirical Study of Frame Selection for Text-to-Video Retrieval Mengxia Wu Min Cao Yang Bai Ziyin Zeng Chen Chen Liqiang Nie Min Zhang 12 0 0 01 Nov 2023
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval Chaorui Deng Qi Chen Pengda Qin Dave Zhenyu Chen Qi Wu VLM CLIP 28 11 0 15 Aug 2023
ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings for Video Action Recognition S. Chaudhuri Saumik Bhattacharya 19 3 0 07 Aug 2023
What Can Simple Arithmetic Operations Do for Temporal Modeling? Wenhao Wu Yuxin Song Zhun Sun Jingdong Wang Chang Xu Wanli Ouyang 33 8 0 18 Jul 2023
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models Uddeshya Upadhyay Shyamgopal Karthik Massimiliano Mancini Zeynep Akata MLLM VLM 11 3 0 01 Jul 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 9 52 0 17 Mar 2023
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? Wenhao Wu Haipeng Luo Bo Fang Jingdong Wang Wanli Ouyang 88 80 0 31 Dec 2022
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang 94 47 0 31 Dec 2022
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval Che-Hsien Lin Ancong Wu Junwei Liang Jun Zhang Wenhang Ge Wei Zheng Chunhua Shen 85 20 0 27 Sep 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 301 771 0 18 Apr 2021
A Straightforward Framework For Video Retrieval Using CLIP Jesús Andrés Portillo-Quintero J. C. Ortíz-Bayliss Hugo Terashima-Marín CLIP 302 106 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Probabilistic Embeddings for Cross-Modal Retrieval Sanghyuk Chun Seong Joon Oh Rafael Sampaio de Rezende Yannis Kalantidis Diane Larlus UQCV 396 197 0 13 Jan 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 396 532 0 21 Jul 2020