TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

2 September 2024

Tao He

Sicheng Zhao

Guiguang Ding

Papers citing "TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval"

5 / 5 papers shown

Title
FastVID: Dynamic Density Pruning for Fast Video Large Language Models Leqi Shen Guoqiang Gong Tao He Yifeng Zhang Pengzhang Liu Sicheng Zhao Guiguang Ding VLM 63 0 0 14 Mar 2025
xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs Michael S Ryoo Honglu Zhou Shrikant B. Kendre Can Qin Le Xue Manli Shu Silvio Savarese R. Xu Caiming Xiong Juan Carlos Niebles VGen 29 12 0 21 Oct 2024
MaPLe: Multi-modal Prompt Learning Muhammad Uzair Khattak H. Rasheed Muhammad Maaz Salman Khan F. Khan VPVLM VLM 184 521 0 06 Oct 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 138 631 0 26 May 2022
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 303 771 0 18 Apr 2021