v1v2 (latest)

Bridging Video-text Retrieval with Multiple Choice Questions

Computer Vision and Pattern Recognition (CVPR), 2022

13 January 2022

Ying Shan

Ping Luo

Papers citing "Bridging Video-text Retrieval with Multiple Choice Questions"

50 / 73 papers shown

Table Comprehension in Building Codes using Vision Language Models and Domain-Specific Fine-Tuning

449

23 Nov 2025

MSAM: Multi-Semantic Adaptive Mining for Cross-Modal Drone Video-Text Retrieval

J. Huang

Yaxiong Chen

Ganchao Liu

154

17 Oct 2025

TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval

Zixu Zhao

Yang Zhan

VGen AI4TS

160

11 Oct 2025

Adversarial Video Promotion Against Text-to-Video Retrieval

216

09 Aug 2025

GAIS: Frame-Level Gated Audio-Visual Integration with Semantic Variance-Scaled Perturbation for Text-Video Retrieval

222

03 Aug 2025

MamFusion: Multi-Mamba with Temporal Fusion for Partially Relevant Video Retrieval

246

04 Jun 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

609

02 Apr 2025

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

1.1K

11 Mar 2025

Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question AnsweringIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

329

12 Dec 2024

FLAASH: Flow-Attention Adaptive Semantic Hierarchical Fusion for Multi-Modal Tobacco Content Analysis

395

25 Oct 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

311

27 Jun 2024

HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model

Ngan Le

368

01 Jun 2024

Composed Video Retrieval via Enriched Context and Discriminative Embeddings

Omkar Thawakar

Muzammal Naseer

Rao Muhammad Anwer

Salman Khan

Michael Felsberg

Mubarak Shah

Fahad Shahbaz Khan

307

25 Mar 2024

VidLA: Video-Language Alignment at ScaleComputer Vision and Pattern Recognition (CVPR), 2024

Mamshad Nayeem Rizve

Fan Fei

Jayakrishnan Unnikrishnan

Mubarak Shah

269

21 Mar 2024

VideoMamba: State Space Model for Efficient Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2024

Yu Qiao

358

472

11 Mar 2024

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

...

Hsin-Ying Lee

Ming-Hsuan Yang

486

378

29 Feb 2024

BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of MindAAAI Conference on Artificial Intelligence (AAAI), 2024

315

12 Feb 2024

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

Ming Yang

291

31 Jan 2024

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks

258

31 Jan 2024

Multi-granularity Correspondence Learning from Long-term Noisy Videos

419

30 Jan 2024

Towards Efficient and Effective Text-to-Video Retrieval with Coarse-to-Fine Visual Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2024

Kaibin Tian

183

01 Jan 2024

A Language-based solution to enable Metaverse Retrieval

360

22 Dec 2023

WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary KnowledgeIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Huy Le

Tung Kieu

Anh Nguyen

Ngan Le

VGen

351

15 Dec 2023

RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos

Tanveer Hannan

Md. Mohaiminul Islam

Thomas Seidl

Gedas Bertasius

569

11 Dec 2023

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

384

10 Dec 2023

Mug-STAN: Adapting Image-Language Pretrained Models for General Video Understanding

309

25 Nov 2023

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language ModelsInternational Conference on Learning Representations (ICLR), 2023

...

305

13 Nov 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

401

30 Oct 2023

Video-adverb retrieval with compositional adverb-action embeddingsBritish Machine Vision Conference (BMVC), 2023

Thomas Hummel

Otniel-Bogdan Mercea

A. Sophia Koepke

Zeynep Akata

230

26 Sep 2023

VidChapters-7M: Video Chapters at ScaleNeural Information Processing Systems (NeurIPS), 2023

284

25 Sep 2023

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal RetrievalIEEE Transactions on Image Processing (IEEE TIP), 2023

Meng Han

Meng Wang

243

11 Sep 2023

Beyond One-to-One: Rethinking the Referring Image SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

Jungong Han

Ping Luo

3DV

361

26 Aug 2023

Prompt Switch: Efficient CLIP Adaptation for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Qi Chen

Qi Wu

293

15 Aug 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

343

24 Jul 2023

Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and ModelIEEE Transactions on Image Processing (IEEE TIP), 2023

Peng Wu

Jing Liu

Xiangteng He

Yuxin Peng

Peng Wang

Yanning Zhang

473

24 Jul 2023

MultiVENT: Multilingual Videos of Events with Aligned Natural TextNeural Information Processing Systems (NeurIPS), 2023

352

06 Jul 2023

ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models

Avinash Madasu

Vasudev Lal

CoGe

355

28 Jun 2023

COSA: Concatenated Sample Pretrained Vision-Language Foundation ModelInternational Conference on Learning Representations (ICLR), 2023

244

15 Jun 2023

Global and Local Semantic Completion Learning for Vision-Language Pre-trainingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Wenzhe Zhao

Hongfa Wang

Yujiu Yang

Wei Liu

VLM

296

12 Jun 2023

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

...

Ji Zhang

199

07 Jun 2023

Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work

Qiangchang Wang

Yilong Yin

352

02 Jun 2023

TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale

Ying Shan

325

23 May 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and DatasetIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

525

173

17 Apr 2023

Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions

325

09 Apr 2023

Semantic Human Parsing via Scalable Semantic Transfer over Multiple Label DomainsComputer Vision and Pattern Recognition (CVPR), 2023

194

09 Apr 2023

Procedure-Aware Pretraining for Instructional Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

Honglu Zhou

Roberto Martín-Martín

Mubbasir Kapadia

Silvio Savarese

Juan Carlos Niebles

347

31 Mar 2023

Structured Video-Language Modeling with Temporal Grouping and Spatial GroundingInternational Conference on Learning Representations (ICLR), 2023

Ming-Hsuan Yang

350

28 Mar 2023

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos

Ran Cheng

Ping Luo

VLM

318

11 Mar 2023

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

589

364

27 Feb 2023

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2023

467

20 Feb 2023