Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

25 March 2023

Papers citing "Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning"

35 / 35 papers shown

Title
Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval A. Fragomeni Dima Damen Michael Wray 33 0 0 02 Apr 2025
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval Zengrong Lin Zheng Wang Tianwen Qian Pan Mu Sixian Chan Cong Bai 38 0 0 13 Mar 2025
MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval Haoran Tang Meng Cao Jinfa Huang Ruyang Liu Peng Jin Ge Li Xiaodan Liang Mamba 92 4 0 24 Feb 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 45 1 0 31 Dec 2024
MoH: Multi-Head Attention as Mixture-of-Head Attention Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 29 13 0 15 Oct 2024
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 27 4 0 09 Oct 2024
TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval Leqi Shen Tianxiang Hao Tao He Sicheng Zhao Pengzhang Liu Yongjun Bao Guiguang Ding Guiguang Ding 43 6 0 02 Sep 2024
Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation Peng Jin Hao Li Ze-Long Cheng Kehan Li Runyi Yu Chang-Shu Liu Xiangyang Ji Li-ming Yuan Jie Chen DiffM 16 3 0 15 Jul 2024
Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning Thong Nguyen Yi Bin Xiaobao Wu Xinshuai Dong Zhiyuan Hu Khoi M. Le Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan 26 5 0 04 Jul 2024
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter Meng Cao Haoran Tang Jinfa Huang Peng Jin Can Zhang Ruyang Liu Long Chen Xiaodan Liang Li-ming Yuan Ge Li 85 11 0 29 May 2024
Text-Video Retrieval with Global-Local Semantic Consistent Learning Haonan Zhang Pengpeng Zeng Lianli Gao Jingkuan Song Yihang Duan Xinyu Lyu Hengtao Shen VLM CLIP 20 2 0 21 May 2024
Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation Yikun Zhang Geyan Ye Chaohao Yuan Bo Han Long-Kai Huang Jianhua Yao Wei Liu Yu Rong 27 3 0 23 Apr 2024
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang Guohao Sun Pichao Wang Dongfang Liu S. Dianat Majid Rabbani Raghuveer M. Rao Zhiqiang Tao VGen 38 2 0 26 Mar 2024
LLMs Meet Long Video: Advancing Long Video Comprehension with An Interactive Visual Adapter in LLMs Yunxin Li Xinyu Chen Baotain Hu Min-Ling Zhang 27 9 0 21 Feb 2024
Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach Shaofeng Zhang Jinfa Huang Qiang-feng Zhou Zhibin Wang Fan Wang Jiebo Luo Junchi Yan DiffM 12 6 0 28 Jan 2024
DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval Xiangpeng Yang Linchao Zhu Xiaohan Wang Yi Yang VLM 21 4 0 19 Jan 2024
Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding Peng Jin Ryuichi Takanobu Caiwan Zhang Xiaochun Cao Li-ming Yuan MLLM 32 217 0 14 Nov 2023
Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs Peng Jin Yang Wu Yanbo Fan Zhongqian Sun Yang Wei Li-ming Yuan DiffM 15 27 0 02 Nov 2023
An Empirical Study of Frame Selection for Text-to-Video Retrieval Mengxia Wu Min Cao Yang Bai Ziyin Zeng Chen Chen Liqiang Nie Min Zhang 12 0 0 01 Nov 2023
A Survey on Interpretable Cross-modal Reasoning Dizhan Xue Shengsheng Qian Zuyi Zhou Changsheng Xu LRM 18 4 0 05 Sep 2023
Improving Scene Graph Generation with Superpixel-Based Interaction Learning Jingyi Wang Can Zhang Jinfa Huang Bo Ren Zhidong Deng 13 7 0 04 Aug 2023
G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game Theory Hongxiang Li Meng Cao Xuxin Cheng Yaowei Li Zhihong Zhu Yuexian Zou 13 20 0 26 Jul 2023
Fine-grained Text-Video Retrieval with Frozen Image Encoders Zuozhuo Dai Fang Shao Qingkun Su Zilong Dong Siyu Zhu 159 1 0 14 Jul 2023
MomentDiff: Generative Video Moment Retrieval from Random to Real P. Li Chen-Wei Xie Hongtao Xie Liming Zhao Lei Zhang Yun Zheng Deli Zhao Yongdong Zhang DiffM VGen 23 53 0 06 Jul 2023
Out-of-Distributed Semantic Pruning for Robust Semi-Supervised Learning Yu Wang Pengchong Qiao Chang-rui Liu Guoli Song Xiawu Zheng Jie Chen OODD 15 10 0 29 May 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 15 31 0 20 May 2023
Avatar Knowledge Distillation: Self-ensemble Teacher Paradigm with Uncertainty Yuan Zhang Weihua Chen Yichen Lu Tao Huang Xiuyu Sun Jian Cao 44 8 0 04 May 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 13 52 0 17 Mar 2023
Parallel Vertex Diffusion for Unified Visual Grounding Ze-Long Cheng Kehan Li Peng Jin Xiang Ji Li-ming Yuan Chang-rui Liu Jie Chen DiffM 14 25 0 13 Mar 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 14 45 0 16 Jan 2023
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee K. Sohn 114 99 0 29 Apr 2021
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 138 166 0 20 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 301 771 0 18 Apr 2021
Multi-modal Transformer for Video Retrieval Valentin Gabeur Chen Sun Alahari Karteek Cordelia Schmid ViT 396 532 0 21 Jul 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 229 3,029 0 09 Mar 2020