v1v2 (latest)

ViViT: A Video Vision Transformer

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3544★)

Papers citing "ViViT: A Video Vision Transformer"

50 / 1,306 papers shown

Title
Temporal vs. Spatial: Comparing DINOv3 and V-JEPA2 Feature Representations for Video Action Analysis Sai Varun Kodathala Rakesh Vunnam 76 0 0 25 Sep 2025
Anatomically Constrained Transformers for Cardiac Amyloidosis Classification Alexander Thorley A. Chartsias Jordan Strom Roberto Lang Jeremy Slivnick Jamie O'Driscoll Rajan Sharma D. Kotecha Yanfu Zhang A. Gómez ViT MedIm 96 1 0 24 Sep 2025
MsFIN: Multi-scale Feature Interaction Network for Traffic Accident Anticipation Tongshuai Wu Chao Lu Ze Song Yunlong Lin Sizhe Fan Xuemei Chen 68 0 0 23 Sep 2025
MoCLIP-Lite: Efficient Video Recognition by Fusing CLIP with Motion Vectors Binhua Huang Nan Wang Arjun Parakash Soumyabrata Dev CLIP VLM 77 0 0 21 Sep 2025
History-Aware Visuomotor Policy Learning via Point Tracking Jingjing Chen Hongjie Fang Chenxi Wang Shiquan Wang Cewu Lu 128 1 0 21 Sep 2025
FakeChain: Exposing Shallow Cues in Multi-Step Deepfake Detection Minji Heo Simon S. Woo 129 1 0 20 Sep 2025
SolarCrossFormer: Improving day-ahead Solar Irradiance Forecasting by Integrating Satellite Imagery and Ground SensorsBrazilian Symposium on Games and Digital Entertainment (SBGames), 2025 B. Schubnel J. Simeunović Corentin Tissier P. Alet R. Carrillo BDL 358 0 0 19 Sep 2025
From Hype to Insight: Rethinking Large Language Model Integration in Visual Speech Recognition Rishabh Jain Naomi Harte VLM 124 0 0 18 Sep 2025
Hierarchical Self-Attention: Generalizing Neural Attention Mechanics to Multi-Scale Problems Saeed Amizadeh Sara Abdali Yinheng Li K. Koishida 148 0 0 18 Sep 2025
Towards a Physics Foundation Model Florian Wiesner Matthias Wessling Stephen Baek AI4CE PINN 202 2 0 17 Sep 2025
Multimodal Hate Detection Using Dual-Stream Graph Neural Networks Jiangbei Yue Shuonan Yang Tailin Chen Jianbo Jiao Zeyu Fu 61 1 0 16 Sep 2025
Dual-Stage Reweighted MoE for Long-Tailed Egocentric Mistake Detection Boyu Han Qianqian Xu Shilong Bao Zhiyong Yang Sicong Li Qingming Huang EgoV MoE 379 0 0 16 Sep 2025
Video Understanding by Design: How Datasets Shape Architectures and Insights Lei Wang Piotr Koniusz Yongsheng Gao 3DV VGen AI4TS 213 0 0 11 Sep 2025
Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening Piyush Bagad Andrew Zisserman AI4TS 200 2 0 10 Sep 2025
Sparse Transformer for Ultra-sparse Sampled Video Compressive Sensing Miao Cao Siming Zheng Lishun Wang Ziyang Chen D. Brady Xin Yuan 100 0 0 10 Sep 2025
Diffusion-Based Action Recognition Generalizes to Untrained Domains Rogério Guimarães Frank Xiao Pietro Perona Markus Marks 241 0 0 10 Sep 2025
Video-based Generalized Category Discovery via Memory-Guided Consistency-Aware Contrastive Learning Zhang Jing Pu Nan Xie Yu Xiang Guo Yanming Lu Qianqi Zou Shiwei Yan Jie Chen Yan CLL 104 1 0 08 Sep 2025
Micro-Expression Recognition via Fine-Grained Dynamic Perception Zhiwen Shao Yifan Cheng Fan Zhang Xuehuai Shi Canlin Li Lizhuang Ma Dit-Yan Yeung 120 0 0 07 Sep 2025
Learning from Majority Label: A Novel Problem in Multi-class Multiple-Instance LearningPattern Recognition (Pattern Recogn.), 2025 Shiku Kaito Shinnosuke Matsuo D. Suehiro Ryoma Bise 80 0 0 04 Sep 2025
Time-Scaling State-Space Models for Dense Video Captioning A. Piergiovanni Ganesh Mallya Dahun Kim A. Angelova 108 0 0 03 Sep 2025
Hierarchical Spatio-temporal Segmentation Network for Ejection Fraction Estimation in Echocardiography VideosInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025 Dongfang Wang Jian Yang Yizhe Zhang Tao Zhou 65 0 0 26 Aug 2025
Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression Zizheng Guo Bochao Zou Yinuo Jia Xiangyu Li Huimin Ma 88 1 0 26 Aug 2025
Training Transformers for Mesh-Based Simulations Paul Garnier Vincent Lannelongue J. Viquerat E. Hachem AI4CE 60 1 0 25 Aug 2025
T-MASK: Temporal Masking for Probing Foundation Models across Camera Views in Driver Monitoring Thinesh Thiyakesan Ponbagavathi Kunyu Peng Alina Roitberg 140 0 0 22 Aug 2025
Attention Mechanism in Randomized Time Warping Yutaro Hiraoka Kazuya Okamura Kota Suto Kazuhiro Fukui 64 0 0 22 Aug 2025
Hierarchical Vision-Language Retrieval of Educational Metaverse Content in Agriculture Ali Abdari Alex Falcon Giuseppe Serra 76 0 0 19 Aug 2025
DIME-Net: A Dual-Illumination Adaptive Enhancement Network Based on Retinex and Mixture-of-Experts Ziang Wang Xiaoqin Wang Dingyi Wang Qiang Li Shushan Qiao MoE 100 0 0 19 Aug 2025
GazeProphet: Software-Only Gaze Prediction for VR Foveated Rendering Farhaan Ebadulla Chiraag Mudlapur Gaurav BV 96 0 0 19 Aug 2025
Wavy Transformer Satoshi Noguchi Yoshinobu Kawahara 86 0 0 18 Aug 2025
Generic Event Boundary Detection via Denoising Diffusion Jaejun Hwang Dayoung Gong Manjin Kim Minsu Cho DiffM 113 0 0 16 Aug 2025
ESSENTIAL: Episodic and Semantic Memory Integration for Video Class-Incremental Learning Jongseo Lee Kyungho Bae Kyle Min Gyeong-Moon Park J. Choi CLL VLM 139 0 0 14 Aug 2025
ME-TST+: Micro-expression Analysis via Temporal State Transition with ROI Relationship Awareness Zizheng Guo Bochao Zou Junbao Zhuo Huimin Ma 88 1 0 11 Aug 2025
Deep Learning-based Animal Behavior Analysis: Insights from Mouse Chronic Pain Models Yu-Hsi Chen Wei-Hsin Chen Chien-Yao Wang H. Liao James C. Liao Chien-Chang Chen 72 0 0 07 Aug 2025
ImpliHateVid: A Benchmark Dataset and Two-stage Contrastive Learning Framework for Implicit Hate Speech Detection in VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Mohammad Zia Ur Rehman Anukriti Bhatnagar Omkar Kabde Shubhi Bansal Nagendra Kumar 128 7 0 07 Aug 2025
A Neurosymbolic Framework for Interpretable Cognitive Attack Detection in Augmented Reality Rongqian Chen Allison Andreyev Yanming Xiu Mahdi Imani Shunav Sen M. Gorlatova Bin Li Tian-Shing Lan Gang Tan Tian Lan AAML 141 2 0 07 Aug 2025
Learning Robust Intervention Representations with Delta Embeddings Panagiotis Alimisis Christos Diou OOD CML 128 0 0 06 Aug 2025
Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition Pulkit Kumar Shuaiyi Huang Matthew Walmer Sai Saketh Rambhatla Abhinav Shrivastava ViT 131 2 0 05 Aug 2025
MoExDA: Domain Adaptation for Edge-based Action Recognition Takuya Sugimoto Ning Ding Toru Tamaki 136 0 0 05 Aug 2025
Structured Spectral Graph Learning for Anomaly Classification in 3D Chest CT Scans Theo Di Piazza Carole Lazarus O. Nempont L. Boussel 77 2 0 01 Aug 2025
MamV2XCalib: V2X-based Target-less Infrastructure Camera Calibration with State Space Model Yaoye Zhu Zhe Wang Yan Wang 104 0 0 31 Jul 2025
Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking Shahla John 95 1 0 30 Jul 2025
StepAL: Step-aware Active Learning for Cataract Surgical VideosInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025 Nisarg A. Shah Bardia Safaei S. Sikder S. Vedula Vishal M. Patel 118 1 0 29 Jul 2025
Bubbleformer: Forecasting Boiling with Transformers Sheikh Md Shakeel Hassan Xianwei Zou A. Dhruv Vishwanath Ganesan Aparna Chandramowlishwaran AI4CE 282 1 0 28 Jul 2025
Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows Simin Huo Ning Li ViT 176 0 0 24 Jul 2025
SPACT18: Spiking Human Action Recognition Benchmark Dataset with Complementary RGB and Thermal Modalities Yasser Ashraf Ahmed Sharshar V. Bojkovic Bin Gu 98 0 0 22 Jul 2025
Foundation Models and Transformers for Anomaly Detection: A SurveyInformation Fusion (Inf. Fusion), 2025 Mouin Ben Ammar Arturo Mendoza Nacim Belkhir Antoine Manzanera Gianni Franchi 160 4 0 21 Jul 2025
DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding Xiaoyi Bao Chenwei Xie Hao Tang Tingyu Weng Xiaofeng Wang Yun Zheng Xingang Wang VGen 127 1 0 21 Jul 2025
BusterX++: Towards Unified Cross-Modal AI-Generated Content Detection and Explanation with MLLM Haiquan Wen Tianxiao Li Zhenglin Huang Yiwei He Guangliang Cheng 256 2 0 19 Jul 2025
Simplifying Traffic Anomaly Detection with Video Foundation Models Svetlana Orlova Tommie Kerssies B. B. Englert Gijs Dubbelman ViT 96 1 0 12 Jul 2025
PPJudge: Towards Human-Aligned Assessment of Artistic Painting Process Shiqi Jiang Xinpeng Li Xi Mao Changbo Wang Chenhui Li 107 1 0 12 Jul 2025

All Papers

ViViT: A Video Vision Transformer

Papers citing "ViViT: A Video Vision Transformer"