M&M Mix: A Multimodal Multiview Transformer Ensemble

20 June 2022

Papers citing "M&M Mix: A Multimodal Multiview Transformer Ensemble"

18 / 18 papers shown

Improving Keystep Recognition in Ego-Video via Dexterous Focus

Zachary Chavis

Stephen J. Guy

Hyun Soo Park

260

01 Jun 2025

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

Maria Santos-Villafranca

377

11 Apr 2025

CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction DatasetsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2025

210

08 Jan 2025

Sensitive Image Classification by Vision TransformersIEEE International Conference on Systems, Man and Cybernetics (SMC), 2024

320

21 Dec 2024

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Dima Damen

294

08 Apr 2024

X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization

Bernt Schiele

180

28 Mar 2024

Training a Large Video Model on a Single Machine in a Day

Yue Zhao

Philipp Krahenbuhl

VLM

273

28 Sep 2023

IndGIC: Supervised Action Recognition under Low Illumination

Jing-Teng Zeng

186

29 Aug 2023

MOFO: MOtion FOcused Self-Supervision for Video Understanding

Mona Ahmadian

Frank Guerin

Andrew Gilbert

307

23 Aug 2023

An Outlook into the Future of Egocentric VisionInternational Journal of Computer Vision (IJCV), 2023

Dima Damen

294

14 Aug 2023

Multimodal Distillation for Egocentric Action RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Gorjan Radevski

Dusan Grujicic

Marie-Francine Moens

Matthew Blaschko

Tinne Tuytelaars

EgoV

331

14 Jul 2023

Team AcieLee: Technical Report for EPIC-SOUNDS Audio-Based Interaction Recognition Challenge 2023

164

15 Jun 2023

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

182

07 Jun 2023

Cross-view Action Recognition Understanding From Exocentric to Egocentric PerspectiveNeurocomputing (Neurocomputing), 2023

Thanh-Dat Truong

Khoa Luu

EgoV

389

25 May 2023

Epic-Sounds: A Large-scale Dataset of Actions That SoundIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

320

01 Feb 2023

Deep Architectures for Content Moderation and Movie Content Rating

Fatih Çagatay Akyön

A. Temi̇zel

209

08 Dec 2022

Students taught by multimodal teachers are superior action recognizers

Gorjan Radevski

Dusan Grujicic

Matthew Blaschko

Marie-Francine Moens

Tinne Tuytelaars

207

09 Oct 2022

Vision Transformers for Action Recognition: A Survey

229

13 Sep 2022