v1v2 (latest)

Parameter Efficient Multimodal Transformers for Video Representation Learning

8 December 2020

Papers citing "Parameter Efficient Multimodal Transformers for Video Representation Learning"

50 / 53 papers shown

LCMF: Lightweight Cross-Modality Mambaformer for Embodied Robotics VQA

234

23 Sep 2025

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and VoiceIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2024

176

24 Aug 2025

Learning Long-Range Action Representation by Two-Stream Mamba Pyramid Network for Figure Skating Assessment

Fengshun Wang

Qiurui Wang

Peilin Zhao

153

22 Aug 2025

Reading to Listen at the Cocktail Party: Multi-Modal Speech SeparationComputer Vision and Pattern Recognition (CVPR), 2022

Akam Rahimi

Triantafyllos Afouras

Andrew Zisserman

412

02 Jan 2025

Human Action Recognition (HAR) Using Skeleton-based Spatial Temporal Relative Transformer Network: ST-RTR

319

31 Oct 2024

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

Khanh-Binh Nguyen

Chae Jung Park

VLM VOS

432

02 Jul 2024

From CNNs to Transformers in Multimodal Human Action Recognition: A Survey

Muhammad Bilal Shaikh

Syed Mohammed Shamsul Islam

Douglas Chai

Naveed Akhtar

418

22 May 2024

MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition

250

28 Apr 2024

Complementing Event Streams and RGB Frames for Hand Mesh ReconstructionComputer Vision and Pattern Recognition (CVPR), 2024

358

12 Mar 2024

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion RecognitionInformation Fusion (Inf. Fusion), 2024

331

11 Jan 2024

PELA: Learning Parameter-Efficient Models with Low-Rank ApproximationComputer Vision and Pattern Recognition (CVPR), 2023

Yangyang Guo

Guangzhi Wang

Mohan S. Kankanhalli

258

16 Oct 2023

STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized AlignmentInternational Conference on Machine Learning (ICML), 2023

Yunji Kim

360

12 Oct 2023

Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training

Pieter Abbeel

160

25 Sep 2023

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

...

Yu Tsao

Hung-yi Lee

364

19 Sep 2023

Compressing Vision Transformers for Low-Resource Visual Learning

218

05 Sep 2023

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the BackboneIEEE International Conference on Computer Vision (ICCV), 2023

415

144

11 Jul 2023

Factorized Contrastive Learning: Going Beyond Multi-view RedundancyNeural Information Processing Systems (NeurIPS), 2023

Louis-Philippe Morency

Ruslan Salakhutdinov

SSL

342

08 Jun 2023

Object Detection with Transformers: A ReviewItalian National Conference on Sensors (INS), 2023

Tahira Shehzadi

K. Hashmi

D. Stricker

Muhammad Zeshan Afzal

ViT MU

467

07 Jun 2023

Annotation-free Audio-Visual SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

455

18 May 2023

Transformers in Speech Processing: A Survey

501

21 Mar 2023

Deep Visual Forced Alignment: Learning to Align Transcription with Talking Face VideoAAAI Conference on Artificial Intelligence (AAAI), 2023

Minsu Kim

Chae Won Kim

Y. Ro

CVBM DiffM

200

27 Feb 2023

Vision Transformers are Parameter-Efficient Audio-Visual LearnersComputer Vision and Pattern Recognition (CVPR), 2022

Yan-Bo Lin

Yi-Lin Sung

Jie Lei

Joey Tianyi Zhou

Gedas Bertasius

420

116

15 Dec 2022

Multimodal Transformer for Parallel Concatenated Variational Autoencoders

Stephen D. Liang

J. Mendel

ViT

295

28 Oct 2022

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-trainingEuropean Conference on Computer Vision (ECCV), 2022

Lu Yuan

281

26 Jul 2022

Multimodal Learning with Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

648

934

13 Jun 2022

VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose Estimation

Gangyong Jia

256

25 May 2022

Are Multimodal Transformers Robust to Missing Modality?Computer Vision and Pattern Recognition (CVPR), 2022

345

233

12 Apr 2022

Give Me Your Attention: Dot-Product Attention Considered Harmful for Adversarial Patch RobustnessComputer Vision and Pattern Recognition (CVPR), 2022

Giulio Lovisotto

Nicole Finnie

Mauricio Muñoz

Chaithanya Kumar Mummadi

J. H. Metzen

AAML ViT

197

25 Mar 2022

Skating-Mixer: Long-Term Sport Audio-Visual Modeling with MLPsAAAI Conference on Artificial Intelligence (AAAI), 2022

470

08 Mar 2022

Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated VideosComputer Vision and Pattern Recognition (CVPR), 2022

383

06 Mar 2022

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

Shentong Mo

Louis-Philippe Morency

Ruslan Salakhutdinov

291

02 Mar 2022

Learning Contextually Fused Audio-visual Representations for Audio-visual Speech RecognitionInternational Conference on Information Photonics (ICIP), 2022

314

15 Feb 2022

ACORT: A Compact Object Relation Transformer for Parameter Efficient Image CaptioningNeurocomputing (Neurocomputing), 2022

258

11 Feb 2022

A Pre-trained Audio-Visual Transformer for Emotion RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Minh Tran

M. Soleymani

194

23 Jan 2022

Video Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

550

152

16 Jan 2022

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster PredictionInternational Conference on Learning Representations (ICLR), 2022

438

441

05 Jan 2022

Audio-Visual Synchronisation in the wild

Honglie Chen

Weidi Xie

Triantafyllos Afouras

Arsha Nagrani

Andrea Vedaldi

Andrew Zisserman

257

08 Dec 2021

SWAT: Spatial Structure Within and Among TokensInternational Joint Conference on Artificial Intelligence (IJCAI), 2021

Kumara Kahatapitiya

Michael S. Ryoo

296

26 Nov 2021

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Valerii Likhosherstov

217

25 Nov 2021

With a Little Help from my Temporal Context: Multimodal Egocentric Action RecognitionBritish Machine Vision Conference (BMVC), 2021

Dima Damen

328

01 Nov 2021

TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation

159

26 Oct 2021

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and BenchmarkACM Multimedia (ACM MM), 2021

169

23 Sep 2021

Survey: Transformer based Video-Language Pre-training

Ludan Ruan

Qin Jin

VLM ViT

293

21 Sep 2021

Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions

Julio C. S. Jacques Junior

...

180

20 Sep 2021

Multilingual Molecular Representation Learning via Contrastive Pre-training

291

18 Sep 2021

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition

Jiawei Chen

C. Ho

ViT

306

112

20 Aug 2021

Attention Bottlenecks for Multimodal FusionNeural Information Processing Systems (NeurIPS), 2021

665

742

30 Jun 2021

Keeping Your Eye on the Ball: Trajectory Attention in Video TransformersNeural Information Processing Systems (NeurIPS), 2021

Ishan Misra Florian Metze

Christoph Feichtenhofer

Andrea Vedaldi

João F. Henriques

367

347

09 Jun 2021

Attention mechanisms and deep learning for machine vision: A survey of the state of the art

A. M. Hafiz

S. A. Parah

R. A. Bhat

258

03 Jun 2021

Space-Time Crop & Attend: Improving Cross-modal Video Representation LearningIEEE International Conference on Computer Vision (ICCV), 2021

Joao Henriques

Andrea Vedaldi

AI4TS

320

18 Mar 2021