Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

1 March 2020

Shizhe Chen

Yida Zhao

Qin Jin

Qi Wu

ArXiv PDF HTML

Papers citing "Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning"

30 / 30 papers shown

Title
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval Junlong Ren Gangjian Zhang Y. Hu Jian Shu H. Wang 29 0 0 28 Apr 2025
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval Reno Kriz Kate Sanders David Etter Kenton W. Murray Cameron Carpenter ... Alexander Martin Ronald Colaianni Nolan King Eugene Yang Benjamin Van Durme VGen 30 2 0 15 Oct 2024
Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation T. Wang Huiling Wang 31 1 0 08 Jul 2024
Text-Video Retrieval with Global-Local Semantic Consistent Learning Haonan Zhang Pengpeng Zeng Lianli Gao Jingkuan Song Yihang Duan Xinyu Lyu Hengtao Shen VLM CLIP 23 2 0 21 May 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 39 1 0 01 Apr 2024
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 24 3 0 11 Dec 2023
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning Chen Jiang Hong Liu Xuzheng Yu Qing Wang Yuan-Chia Cheng ... Zhongyi Liu Qingpei Guo Wei Chu Ming Yang Yuan Qi 16 10 0 20 Sep 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 18 31 0 20 May 2023
GLT-T++: Global-Local Transformer for 3D Siamese Tracking with Ranking Loss Jiahao Nie Zhiwei He Yuxiang Yang Xudong Lv Mingchen Gao Jing Zhang ViT 3DPC 34 7 0 01 Apr 2023
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang-rui Liu Xiang Ji Li-ming Yuan Jie Chen 25 48 0 25 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 16 52 0 17 Mar 2023
Accommodating Audio Modality in CLIP for Multimodal Processing Ludan Ruan Anwen Hu Yuqing Song Liang Zhang S. Zheng Qin Jin VLM 16 10 0 12 Mar 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 17 45 0 16 Jan 2023
Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim Nam-Won Kim Suha Kwak 10 37 0 30 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 38 35 0 17 Nov 2022
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues Jason Armitage L. Impett Rico Sennrich 14 5 0 24 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
UniUD-FBK-UB-UniBZ Submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2022 Alex Falcon G. Serra Sergio Escalera O. Lanz 9 1 0 22 Jun 2022
Relevance-based Margin for Contrastively-trained Video Retrieval Models Alex Falcon Swathikiran Sudhakaran G. Serra Sergio Escalera O. Lanz 19 7 0 27 Apr 2022
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval Haoyu Lu Nanyi Fei Yuqi Huo Yizhao Gao Zhiwu Lu Jiaxin Wen CLIP VLM 19 54 0 15 Apr 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 15 19 0 23 Mar 2022
Hierarchical Deep Residual Reasoning for Temporal Moment Localization Ziyang Ma Xianjing Han Xuemeng Song Yiran Cui Liqiang Nie 13 9 0 31 Oct 2021
A Feature Consistency Driven Attention Erasing Network for Fine-Grained Image Retrieval Qi Zhao Xu Wang Shuchang Lyu Binghao Liu Yifan Yang 26 18 0 09 Oct 2021
HANet: Hierarchical Alignment Networks for Video-Text Retrieval Peng Wu Xiangteng He Mingqian Tang Yiliang Lv Jing Liu 18 50 0 26 Jul 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 11 291 0 21 Jun 2021
Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning Zhenfang Chen Jiayuan Mao Jiajun Wu Kwan-Yee Kenneth Wong J. Tenenbaum Chuang Gan VGen 31 92 0 30 Mar 2021
On Semantic Similarity in Video Retrieval Michael Wray Hazel Doughty Dima Damen 16 66 0 18 Mar 2021
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models Po-Yao (Bernie) Huang Mandela Patrick Junjie Hu Graham Neubig Florian Metze Alexander G. Hauptmann MLLM VLM 11 56 0 16 Mar 2021
Graph Neural Networks: Taxonomy, Advances and Trends Yu Zhou Haixia Zheng Xin Huang Shufeng Hao Dengao Li Jumin Zhao AI4TS 23 113 0 16 Dec 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 11 168 0 01 Nov 2020