v1v2v3 (latest)

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

9 September 2021

Fan Yang

Papers citing "Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss"

50 / 103 papers shown

Fine-grained Text-Video Retrieval with Frozen Image Encoders

408

14 Jul 2023

COSA: Concatenated Sample Pretrained Vision-Language Foundation ModelInternational Conference on Learning Representations (ICLR), 2023

197

15 Jun 2023

Global and Local Semantic Completion Learning for Vision-Language Pre-trainingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Wenzhe Zhao

Hongfa Wang

Yujiu Yang

Wei Liu

VLM

252

12 Jun 2023

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and DatasetNeural Information Processing Systems (NeurIPS), 2023

506

171

29 May 2023

DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation

281

23 May 2023

TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale

Ying Shan

263

23 May 2023

VLAB: Enhancing Video Language Pre-training by Feature Adapting and BlendingIEEE transactions on multimedia (IEEE TMM), 2023

Yi Yang

293

22 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

240

13 May 2023

A Large Cross-Modal Video Retrieval Dataset with Reading ComprehensionPattern Recognition (Pattern Recogn.), 2023

197

05 May 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and DatasetIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

382

150

17 Apr 2023

DATE: Domain Adaptive Product Seeker for E-commerceComputer Vision and Pattern Recognition (CVPR), 2023

Zhou Zhao

308

07 Apr 2023

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2023

270

25 Mar 2023

Aligning Step-by-Step Instructional Diagrams to Video DemonstrationsComputer Vision and Pattern Recognition (CVPR), 2023

Jiahao Zhang

A. Cherian

Yanbin Liu

Yizhak Ben-Shabat

Cristian Rodriguez-Opazo

Stephen Gould

224

24 Mar 2023

Dialogue-to-Video RetrievalEuropean Conference on Information Retrieval (ECIR), 2023

169

23 Mar 2023

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice ModelingAAAI Conference on Artificial Intelligence (AAAI), 2023

261

10 Mar 2023

Improving Text-Audio Retrieval by Text-aware Attention Pooling and Prior Matrix Revised LossIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Yifei Xin

Dongchao Yang

Yuexian Zou

382

10 Mar 2023

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-TrainingComputer Vision and Pattern Recognition (CVPR), 2023

Yang Liu

319

28 Feb 2023

Deep Learning for Video-Text Retrieval: a ReviewInternational Journal of Multimedia Information Retrieval (IJMIR), 2023

226

24 Feb 2023

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2023

383

20 Feb 2023

Video-Text Retrieval by Supervised Sparse Multi-Grained LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yimu Wang

Peng Shi

229

19 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

245

30 Jan 2023

Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge TransferringComputer Vision and Pattern Recognition (CVPR), 2023

243

26 Jan 2023

UATVR: Uncertainty-Adaptive Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

245

16 Jan 2023

HierVL: Learning Hierarchical Video-Language EmbeddingsComputer Vision and Pattern Recognition (CVPR), 2023

434

05 Jan 2023

SimVTP: Simple Video Text Pre-training with Masked Autoencoders

Yue Ma

Tianyu Yang

Yin Shan

Xiu Li

164

07 Dec 2022

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Yi Wang

...

Yu Qiao

453

444

06 Dec 2022

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion LearningComputer Vision and Pattern Recognition (CVPR), 2022

Wenzhe Zhao

Hongfa Wang

Yujiu Yang

Wei Liu

VLM

257

24 Nov 2022

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent AttentionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

178

21 Nov 2022

Expectation-Maximization Contrastive Learning for Compact Video-and-Language RepresentationsNeural Information Processing Systems (NeurIPS), 2022

300

21 Nov 2022

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval

Damianos Galanopoulos

Vasileios Mezaris

167

21 Nov 2022

Cross-Modal Adapter for Vision-Language RetrievalPattern Recognition (Pattern Recogn.), 2022

350

17 Nov 2022

Efficient Cross-Modal Video Retrieval with Meta-Optimized FramesIEEE transactions on multimedia (IEEE TMM), 2022

Hao Chen

171

16 Oct 2022

RaP: Redundancy-aware Video-language Pre-training for Text-Video RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

148

13 Oct 2022

Contrastive Video-Language Learning with Fine-grained Frame Sampling

Yujie Zhong

227

10 Oct 2022

TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval

262

28 Sep 2022

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation AlignmentInternational Conference on Learning Representations (ICLR), 2022

428

14 Sep 2022

MuMUR : Multilingual Multimodal Universal Retrieval

Avinash Madasu

Estelle Aflalo

Gabriela Ben-Melech Stan

Shachar Rosenman

Shao-Yen Tseng

Gedas Bertasius

Vasudev Lal

406

24 Aug 2022

M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval

Weize Quan

Dong-Ming Yan

126

16 Aug 2022

Frozen CLIP Models are Efficient Video LearnersEuropean Conference on Computer Vision (ECCV), 2022

Yu Qiao

247

253

06 Aug 2022

Don't Stop Learning: Towards Continual Learning for the CLIP Model

Yuxuan Ding

Lingqiao Liu

221

19 Jul 2022

Clover: Towards A Unified Video-Language Alignment and Fusion ModelComputer Vision and Pattern Recognition (CVPR), 2022

277

16 Jul 2022

TS2-Net: Token Shift and Selection Transformer for Text-Video RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Qin Jin

257

169

16 Jul 2022

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

182

11 Jul 2022

LAVENDER: Unifying Video-Language Understanding as Masked Language ModelingComputer Vision and Pattern Recognition (CVPR), 2022

Zicheng Liu

191

14 Jun 2022

A CLIP-Hitchhiker's Guide to Long Video Retrieval

414

17 May 2022

Zero-Shot Category-Level Object Pose EstimationEuropean Conference on Computer Vision (ECCV), 2022

301

07 Apr 2022

Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level RepresentationsIEEE Access (IEEE Access), 2022

Shaobo Min

Hongfa Wang

Wei Liu

331

07 Apr 2022

ECLIPSE: Efficient Long-range Video Retrieval using Sight and SoundEuropean Conference on Computer Vision (ECCV), 2022

Yan-Bo Lin

Jie Lei

Joey Tianyi Zhou

Gedas Bertasius

386

06 Apr 2022

Learning Audio-Video Modalities from Image CaptionsEuropean Conference on Computer Vision (ECCV), 2022

206

01 Apr 2022

Socratic Models: Composing Zero-Shot Multimodal Reasoning with LanguageInternational Conference on Learning Representations (ICLR), 2022

...

555

681

01 Apr 2022