v1v2 (latest)

ViViT: A Video Vision Transformer

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3544★)

Papers citing "ViViT: A Video Vision Transformer"

50 / 1,311 papers shown

Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future ProspectsIEEE Access (IEEE Access), 2024

273

14 Sep 2024

TabMixer: Noninvasive Estimation of the Mean Pulmonary Artery Pressure via Imaging and Tabular Data MixingInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Michal K. Grzeszczyk

Przemysław Korzeniowski

138

11 Sep 2024

Data Collection-free Masked Video ModelingEuropean Conference on Computer Vision (ECCV), 2024

Yuchi Ishikawa

Masayoshi Kondo

Yoshimitsu Aoki

ViT

210

10 Sep 2024

Scaling Law Hypothesis for Multimodal Model

Qingyun Sun

Zhen Guo

160

10 Sep 2024

Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment

329

06 Sep 2024

Spindle: Efficient Distributed Training of Multi-Task Large Models via Wavefront SchedulingInternational Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS), 2024

Yujie Wang

Fangcheng Fu

Jie Zhang

Bin Cui

156

05 Sep 2024

Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers

Sohan Anisetty

James Hays

200

03 Sep 2024

3D-LSPTM: An Automatic Framework with 3D-Large-Scale Pretrained Model for Laryngeal Cancer Detection Using Laryngoscopic VideosAnnual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 2024

Meiyu Qiu

169

02 Sep 2024

ESP-PCT: Enhanced VR Semantic Performance through Efficient Compression of Temporal and Spatial Redundancies in Point Cloud TransformersInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Shuai Wang

Shuai Wang

225

02 Sep 2024

Learning to Discover Forgery Cues for Face Forgery DetectionIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024

Jizhong Han

262

02 Sep 2024

Towards Student Actions in Classroom Scenes: New Dataset and BaselineIEEE transactions on multimedia (IEEE TMM), 2024

302

02 Sep 2024

RoboMNIST: A Multimodal Dataset for Multi-Robot Activity Recognition Using WiFi Sensing, Video, and AudioScientific Data (Sci Data), 2024

175

29 Aug 2024

DEAR: Depth-Enhanced Action Recognition

Sadegh Rahmaniboldaji

Filip Rybansky

Quoc Vuong

Frank Guerin

Andrew Gilbert

130

28 Aug 2024

Fine-grained length controllable video captioning with ordinal embeddingsIEEE Access (IEEE Access), 2024

Tomoya Nitta

Takumi Fukuzawa

Toru Tamaki

316

27 Aug 2024

MMASD+: A Novel Dataset for Privacy-Preserving Behavior Analysis of Children with Autism Spectrum Disorder

229

27 Aug 2024

SurGen: Text-Guided Diffusion Model for Surgical Video Generation

308

26 Aug 2024

Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2024

Bozheng Li

Mushui Liu

Gaoang Wang

Yunlong Yu

201

22 Aug 2024

EdgeNAT: Transformer for Efficient Edge DetectionEuropean Conference on Artificial Intelligence (ECAI), 2024

182

20 Aug 2024

ALS-HAR: Harnessing Wearable Ambient Light Sensors to Enhance IMU-based Human Activity Recogntion

L. Ray

Daniel Geißler

Mengxi Liu

Bo Zhou

Sungho Suh

Paul Lukowicz

167

18 Aug 2024

VrdONE: One-stage Video Visual Relation DetectionACM Multimedia (MM), 2024

Huaidong Zhang

215

18 Aug 2024

OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature LearningEuropean Conference on Artificial Intelligence (ECAI), 2024

Mushui Liu

Bozheng Li

Yunlong Yu

VLM

240

12 Aug 2024

How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and ModelIEEE Transactions on Image Processing (TIP), 2024

270

10 Aug 2024

MU-MAE: Multimodal Masked Autoencoders-Based One-Shot LearningConference on Multimedia Information Processing and Retrieval (MIPR), 2024

Rex Liu

Xin Liu

264

08 Aug 2024

Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase RecognitionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Shu Yang

Luyang Luo

Qiong Wang

Hao Chen

MedIm

165

07 Aug 2024

From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation

257

05 Aug 2024

BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

233

05 Aug 2024

FE-Adapter: Adapting Image-based Emotion Classifiers to VideosIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2024

Shreyank N. Gowda

Boyan Gao

David A. Clifton

189

05 Aug 2024

VidModEx: Interpretable and Efficient Black Box Model Extraction for High-Dimensional Spaces

Somnath Sendhil Kumar

Yuvaraj Govindarajulu

Pavan Kulkarni

Manojkumar Somabhai Parmar

FAtt

203

04 Aug 2024

508

02 Aug 2024

MPT-PAR:Mix-Parameters Transformer for Panoramic Activity Recognition

261

01 Aug 2024

RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining

Lei Zhu

217

31 Jul 2024

PEAR: Phrase-Based Hand-Object Interaction Anticipation

316

31 Jul 2024

Dynamic Gesture Recognition in Ultra-Range Distance for Effective Human-Robot Interaction

Eran Bamani Beeri

Eden Nissinman

A. Sintov

116

31 Jul 2024

SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting

Yicheng Deng

Hideaki Hayashi

Hajime Nagahara

288

30 Jul 2024

Mixture of Nested Experts: Adaptive Processing of Visual TokensNeural Information Processing Systems (NeurIPS), 2024

273

29 Jul 2024

Language-driven Grasp Detection with Mask-guided AttentionIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

Ngan Le

Anh Nguyen

191

29 Jul 2024

MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and BilibiliACM Multimedia (MM), 2024

267

28 Jul 2024

Trajectory-aligned Space-time Tokens for Few-shot Action Recognition

242

25 Jul 2024

OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos

157

24 Jul 2024

Causal Understanding For Video Question Answering

Bhanu Prakash Reddy Guda

Tanmay Kulkarni

Adithya Sampath

Swarnashree Mysore Sathyendra

CML

277

23 Jul 2024

Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models

Thinesh Thiyakesan Ponbagavathi

Kunyu Peng

Alina Roitberg

280

22 Jul 2024

SIGMA:Sinkhorn-Guided Masked Video Modeling

255

22 Jul 2024

Towards Robust Vision Transformer via Masked Adaptive Ensemble

287

22 Jul 2024

A Comprehensive Review of Few-shot Action Recognition

538

20 Jul 2024

Pose-guided multi-task video transformer for driver action recognition

194

18 Jul 2024

DiffuX2CT: Diffusion Learning to Reconstruct CT Images from Biplanar X-Rays

Xuhui Liu

192

18 Jul 2024

Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism

223

18 Jul 2024

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

367

17 Jul 2024

Hierarchical Separable Video Transformer for Snapshot Compressive Imaging

415

16 Jul 2024

Human-Centric Transformer for Domain Adaptive Action Recognition

Kun-Yu Lin

Jiaming Zhou

Wei-Shi Zheng

225

15 Jul 2024