v1v2 (latest)

A Straightforward Framework For Video Retrieval Using CLIP

Mexican Conference on Pattern Recognition (MPR), 2021

24 February 2021

Jesús Andrés Portillo-Quintero

J. C. Ortíz-Bayliss

Hugo Terashima-Marín

CLIP

ArXiv (abs)PDF HTML Github (70★)

Papers citing "A Straightforward Framework For Video Retrieval Using CLIP"

50 / 64 papers shown

MSAM: Multi-Semantic Adaptive Mining for Cross-Modal Drone Video-Text Retrieval

J. Huang

Yaxiong Chen

Ganchao Liu

154

17 Oct 2025

VC-Agent: An Interactive Agent for Customized Video Dataset Collection

206

25 Sep 2025

BiListing: Modality Alignment for Listings

217

28 Aug 2025

Adversarial Video Promotion Against Text-to-Video Retrieval

227

09 Aug 2025

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and ModalityAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

1.0K

05 May 2025

Detecting Content Rating Violations in Android Applications: A Vision-Language Approach

Dishanika Denipitiyage

256

07 Feb 2025

Optimized two-stage AI-based Neural Decoding for Enhanced Visual Stimulus Reconstruction from fMRI DataJournal of Neural Engineering (J. Neural Eng.), 2024

355

17 Dec 2024

TokenBinder: Text-Video Retrieval with One-to-Many Alignment ParadigmIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Xin Yu

Jiajun Liu

Sen Wang

VGen

283

30 Sep 2024

From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition

Shiwei Wu

Chao Zhang

Joya Chen

Tong Xu

Likang Wu

Yao Hu

Enhong Chen

209

12 Jun 2024

ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

Han Fang

Chao Ban

Zhongjiang He

Hao Sun

403

18 Apr 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

490

26 Mar 2024

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

312

25 Nov 2023

Videoprompter: an ensemble of foundational models for zero-shot video understanding

Adeel Yousaf

Muzammal Naseer

Salman Khan

Fahad Shahbaz Khan

Mubarak Shah

VLM

279

23 Oct 2023

Encoding and Decoding Narratives: Datafication and Alternative Access Models for Audiovisual ArchivesACM Multimedia (ACM MM), 2023

Yuchen Yang

215

10 Oct 2023

Write What You Want: Applying Text-to-video Retrieval to Audiovisual ArchivesACM Journal on Computing and Cultural Heritage (JOCCH), 2023

Yuchen Yang

VGen

229

09 Oct 2023

Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and DataIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Zuxuan Wu

298

08 Oct 2023

HowToCaption: Prompting LLMs to Transform Video Annotations at ScaleEuropean Conference on Computer Vision (ECCV), 2023

Nina Shvetsova

Anna Kukleva

Xudong Hong

Christian Rupprecht

Bernt Schiele

Hilde Kuehne

377

07 Oct 2023

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic AlignmentInternational Conference on Learning Representations (ICLR), 2023

Bin Lin

...

Wei Liu

947

398

03 Oct 2023

Prototype-based Aleatoric Uncertainty Quantification for Cross-modal RetrievalNeural Information Processing Systems (NeurIPS), 2023

Lianli Gao

339

29 Sep 2023

Unified Coarse-to-Fine Alignment for Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gedas Bertasius

470

18 Sep 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Bernt Schiele

269

16 Sep 2023

Representation Learning for Sequential Volumetric Design Tasks

322

05 Sep 2023

Multi-event Video-Text RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Gengyuan Zhang

Jisen Ren

Jindong Gu

Volker Tresp

255

22 Aug 2023

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

Willy Fitra Hendria

290

20 Jun 2023

TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale

Ying Shan

327

23 May 2023

i-Code Studio: A Configurable and Composable Framework for Integrative AIConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

...

Lu Yuan

246

23 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

308

13 May 2023

Visual Reasoning: from State to TransformationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

244

02 May 2023

Verbs in Action: Improving verb understanding in video-language modelsIEEE International Conference on Computer Vision (ICCV), 2023

549

13 Apr 2023

Accommodating Audio Modality in CLIP for Multimodal ProcessingAAAI Conference on Artificial Intelligence (AAAI), 2023

Qin Jin

248

12 Mar 2023

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information RetrievalACM Transactions on Knowledge Discovery from Data (TKDD), 2023

363

13 Feb 2023

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2023

Ying Shan

300

30 Jan 2023

UATVR: Uncertainty-Adaptive Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

380

16 Jan 2023

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

401

09 Dec 2022

Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval

Damianos Galanopoulos

Vasileios Mezaris

275

21 Nov 2022

I Can't Believe There's No Images! Learning Visual Tasks Using only Language SupervisionIEEE International Conference on Computer Vision (ICCV), 2022

431

17 Nov 2022

Boosting Video-Text Retrieval with Explicit High-Level SemanticsACM Multimedia (ACM MM), 2022

Jungong Han

Errui Ding

259

08 Aug 2022

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text RetrievalACM Multimedia (ACM MM), 2022

Ji Zhang

336

436

15 Jul 2022

CoCa: Contrastive Captioners are Image-Text Foundation Models

Mojtaba Seyedhosseini

Yonghui Wu

VLM CLIP OffRL

937

1,699

04 May 2022

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Ying Shan

Ping Luo

191

26 Apr 2022

Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level RepresentationsIEEE Access (IEEE Access), 2022

Shaobo Min

Hongfa Wang

Wei Liu

447

07 Apr 2022

ECLIPSE: Efficient Long-range Video Retrieval using Sight and SoundEuropean Conference on Computer Vision (ECCV), 2022

Yan-Bo Lin

Jie Lei

Joey Tianyi Zhou

Gedas Bertasius

456

06 Apr 2022

Socratic Models: Composing Zero-Shot Multimodal Reasoning with LanguageInternational Conference on Learning Representations (ICLR), 2022

...

790

715

01 Apr 2022

GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and RetrievalEuropean Conference on Computer Vision (ECCV), 2022

684

01 Apr 2022

X-Pool: Cross-Modal Language-Video Attention for Text-Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2022

395

243

28 Mar 2022

Disentangled Representation Learning for Text-Video Retrieval

263

105

14 Mar 2022

MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization

210

14 Mar 2022

Geodesic Multi-Modal Mixup for Robust Fine-TuningNeural Information Processing Systems (NeurIPS), 2022

523

08 Mar 2022

Bridging Video-text Retrieval with Multiple Choice QuestionsComputer Vision and Pattern Recognition (CVPR), 2022

Ying Shan

Ping Luo

396

126

13 Jan 2022

Multi-Query Video RetrievalEuropean Conference on Computer Vision (ECCV), 2022

336

10 Jan 2022