ActBERT: Learning Global-Local Video-Text Representations

Computer Vision and Pattern Recognition (CVPR), 2020

14 November 2020

Linchao Zhu

Yi Yang

ViT

ArXiv (abs)PDF HTML

Papers citing "ActBERT: Learning Global-Local Video-Text Representations"

50 / 278 papers shown

EEA: Exploration-Exploitation Agent for Long Video Understanding

100

03 Dec 2025

Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

111

03 Nov 2025

iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning

302

23 Sep 2025

Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives

191

20 Aug 2025

Adversarial Video Promotion Against Text-to-Video Retrieval

199

09 Aug 2025

ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment

372

28 Jun 2025

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review

A. Fragomeni

Dima Damen

Michael Wray

266

29 May 2025

TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video RetrievalInformation Fusion (Inf. Fusion), 2025

Xiaolun Jing

Genke Yang

Jian Chu

255

07 Apr 2025

Video-ColBERT: Contextualized Late Interaction for Text-to-Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

452

24 Mar 2025

EgoLife: Towards Egocentric Life AssistantComputer Vision and Pattern Recognition (CVPR), 2025

...

329

05 Mar 2025

VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video PromptingAAAI Conference on Artificial Intelligence (AAAI), 2024

Muhammet Furkan Ilaslan

346

16 Dec 2024

Foundation Models and Adaptive Feature Selection: A Synergistic Approach to Video Question AnsweringIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

298

12 Dec 2024

Multi-Modal interpretable automatic video captioning

Antoine Hanna-Asaad

Decky Aspandi

Titus Zaharia

278

11 Nov 2024

ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language TuningInternational Journal of Computer Vision (IJCV), 2024

334

23 Oct 2024

LocoMotion: Learning Motion-Focused Video-Language RepresentationsAsian Conference on Computer Vision (ACCV), 2024

Hazel Doughty

Fida Mohammad Thoker

Cees G. M. Snoek

416

15 Oct 2024

Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering

Kunhao Fu

338

12 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

269

12 Oct 2024

Audio Description Generation in the Era of LLMs and VLMs: A Review of Transferable Generative AI TechnologiesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

280

11 Oct 2024

T2VIndexer: A Generative Video Indexer for Efficient Text-Video RetrievalACM Multimedia (MM), 2024

Yili Li

Jing Yu

Gang Xiong

270

21 Aug 2024

Causal Understanding For Video Question Answering

Bhanu Prakash Reddy Guda

Tanmay Kulkarni

Adithya Sampath

Swarnashree Mysore Sathyendra

CML

337

23 Jul 2024

Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning

See-Kiong Ng

Luu Anh Tuan

534

04 Jul 2024

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset

Yuchen Yang

Yingxuan Duan

VGen

228

19 Jun 2024

AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding

Yu-Gang Jiang

311

11 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

639

09 Jun 2024

From CNNs to Transformers in Multimodal Human Action Recognition: A Survey

Muhammad Bilal Shaikh

Syed Mohammed Shamsul Islam

Douglas Chai

Naveed Akhtar

429

22 May 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

298

12 May 2024

Learning text-to-video retrieval from image captioning

417

26 Apr 2024

Learning Discriminative Spatio-temporal Representations for Semi-supervised Action Recognition

261

25 Apr 2024

A review of deep learning-based information fusion techniques for multimodal medical image classification

Yi-Hsuan Li

Mostafa EL HABIB DAHO

206

154

23 Apr 2024

TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding

327

15 Apr 2024

VideoDistill: Language-aware Vision Distillation for Video Question Answering

Yu Qiao

265

01 Apr 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

470

26 Mar 2024

InternVideo2: Scaling Video Foundation Models for Multimodal Video UnderstandingEuropean Conference on Computer Vision (ECCV), 2024

...

Yifei Huang

Yu Qiao

Yali Wang

Limin Wang

353

104

22 Mar 2024

VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding

Ahmad A Mahmood

Ashmal Vayani

Muzammal Naseer

Salman Khan

Fahad Shahbaz Khan

LRM

541

21 Mar 2024

What's in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary Detection

Sourabh Vasant Gothe

Vibhav Agarwal

Sourav Ghosh

Jayesh Rajkumar Vachhani

Pranay Kashyap

Barath Raj Kandur

171

15 Feb 2024

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection

291

14 Feb 2024

M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

Ming Yang

291

31 Jan 2024

SNP-S3: Shared Network Pre-training and Significant Semantic Strengthening for Various Video-Text Tasks

248

31 Jan 2024

Multi-granularity Correspondence Learning from Long-term Noisy Videos

416

30 Jan 2024

CoAVT: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model for Multimodal ProcessingIEEE Transactions on Audio, Speech, and Language Processing (IEEE TASLP), 2024

Xianghu Yue

Haizhou Li

338

22 Jan 2024

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval

Yi Yang

333

19 Jan 2024

Glance and Focus: Memory Prompting for Multi-Event Video Question AnsweringNeural Information Processing Systems (NeurIPS), 2024

Ziyi Bai

Ruiping Wang

Xilin Chen

393

03 Jan 2024

Video Understanding with Large Language Models: A Survey

...

880

216

29 Dec 2023

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

379

10 Dec 2023

Generating Illustrated Instructions

332

07 Dec 2023

A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video RetrievalIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

321

30 Nov 2023

A Survey on Multimodal Large Language Models for Autonomous Driving

Wenqian Ye

...

397

479

21 Nov 2023

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language ModelsInternational Conference on Learning Representations (ICLR), 2023

...

300

13 Nov 2023

ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life VideosConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Nischal Reddy Chandra

Marjorie Freedman

R. Weischedel

Nanyun Peng

308

02 Nov 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

400

30 Oct 2023