v1v2v3 (latest)

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

15 February 2020

Tianrui Li

Papers citing "UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation"

50 / 294 papers shown

Leveraging Foundation Models for Multimodal Graph-Based Action Recognition

Fatemeh Ziaeetabar

Florentin Wörgötter

474

21 May 2025

ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

Jian Hu

Dimitrios Korkinof

S. Gong

Mariano Beguerisse-Díaz

VLM

259

22 Apr 2025

Parameter-Efficient Continual Fine-Tuning: A Survey

466

18 Apr 2025

FocusedAD: Character-centric Movie Audio Description

457

16 Apr 2025

F$^3$Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from Videos

^3

Set: Towards Analyzing Fast, Frequent, and Fine-grained Events from VideosInternational Conference on Learning Representations (ICLR), 2025

364

11 Apr 2025

REVEAL: Relation-based Video Representation Learning for Video-Question-Answering

936

07 Apr 2025

REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding

320

07 Apr 2025

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMsComputer Vision and Pattern Recognition (CVPR), 2025

337

31 Mar 2025

Learning to Generate Long-term Future Narrations Describing Activities of Daily Living

Ramanathan Rajendiran

Debaditya Roy

Basura Fernando

VGen

369

03 Mar 2025

CrossOver: 3D Scene Cross-Modal AlignmentComputer Vision and Pattern Recognition (CVPR), 2025

507

20 Feb 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

484

31 Dec 2024

Overview of TREC 2024 Medical Video Question Answering (MedVidQA) Track

D. Gupta

Dina Demner-Fushman

LM&MA

280

15 Dec 2024

Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey

...

476

03 Dec 2024

TechCoach: Towards Technical-Point-Aware Descriptive Action Coaching

584

26 Nov 2024

Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

353

25 Nov 2024

Multi-Modal interpretable automatic video captioning

Antoine Hanna-Asaad

Decky Aspandi

Titus Zaharia

282

11 Nov 2024

Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable SensorsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

335

26 Oct 2024

It's Just Another Day: Unique Video Captioning by Discriminative PromptingAsian Conference on Computer Vision (ACCV), 2024

287

15 Oct 2024

Bridging Text and Image for Artist Style Transfer via Contrastive Learning

290

12 Oct 2024

Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question AnsweringIEEE Transactions on Image Processing (TIP), 2024

Ting Yu

Kunhao Fu

Jian Zhang

Qingming Huang

Jun Yu

273

12 Oct 2024

GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning

Eileen Wang

Caren Han

Josiah Poon

272

12 Oct 2024

Exploring Efficient Foundational Multi-modal Models for Video Summarization

Karan Samel

Apoorva Beedu

Nitish Sontakke

Irfan Essa

200

09 Oct 2024

Grounding is All You Need? Dual Temporal Grounding for Video Dialog

Xun Yang

Dan Guo

Roger Zimmermann

Lizi Liao

VGen

353

08 Oct 2024

EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos referring to Procedural Texts

432

07 Oct 2024

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge AugmentationNeural Information Processing Systems (NeurIPS), 2024

510

30 Sep 2024

Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video AlignmentEuropean Conference on Computer Vision (ECCV), 2024

Yu Kong

Martin Renqiang Min

Dimitris N. Metaxas

DiffM

358

22 Sep 2024

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models

468

19 Sep 2024

End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal PromptingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Yongqi Wang

Xinxiao Wu

Shuo Yang

Jiebo Luo

1.0K

19 Sep 2024

Recent Advances in Multimodal Affective Computing: An NLP Perspective

435

11 Sep 2024

Enhancing Long Video Understanding via Hierarchical Event-Based Memory

Jingyu Liu

Xi Chen

313

10 Sep 2024

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Insup Lee

322

22 Aug 2024

T2VIndexer: A Generative Video Indexer for Efficient Text-Video RetrievalACM Multimedia (MM), 2024

Yili Li

Jing Yu

Gang Xiong

270

21 Aug 2024

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language BenchmarkEuropean Conference on Computer Vision (ECCV), 2024

311

05 Aug 2024

Language-driven Grasp Detection with Mask-guided AttentionIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

Ngan Le

Anh Nguyen

234

29 Jul 2024

MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and BilibiliACM Multimedia (MM), 2024

308

28 Jul 2024

Ego-VPA: Egocentric Video Understanding with Parameter-efficient AdaptationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

569

28 Jul 2024

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

492

26 Jul 2024

AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description

300

22 Jul 2024

Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

359

18 Jul 2024

SoupLM: Model Integration in Large Language and Multi-Modal Models

Yun Fu

206

11 Jul 2024

Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning

See-Kiong Ng

Luu Anh Tuan

553

04 Jul 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

310

27 Jun 2024

NarrativeBridge: Enhancing Video Captioning with Causal-Temporal NarrativeInternational Conference on Learning Representations (ICLR), 2024

511

10 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

642

09 Jun 2024

Seeing the Unseen: Visual Metaphor Captioning for VideosConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Abisek Rajakumar Kalarani

Pushpak Bhattacharyya

Sumit Shekhar

VLM

179

07 Jun 2024

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification

566

28 May 2024

A Novel Fusion Architecture for PD Detection Using Semi-Supervised Speech Embeddings

Tariq Adnan

Abdelrahman Abdelkader

180

21 May 2024

MICap: A Unified Model for Identity-aware Movie DescriptionsComputer Vision and Pattern Recognition (CVPR), 2024

376

19 May 2024

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo

Haofan Wang

Huaxia Li

Xu Tang

299

12 May 2024

Narrative Action Evaluation with Prompt-Guided Multimodal Interaction

Lei Chen

285

22 Apr 2024