SlowFast Networks for Video Recognition

10 December 2018

Christoph Feichtenhofer

Papers citing "SlowFast Networks for Video Recognition"

50 / 506 papers shown

Title
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval Zeyu Chen Pengfei Zhang Kai Ye Wei Dong Xin Feng Yana Zhang 41 0 0 28 Jul 2024
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models Mingze Xu Mingfei Gao Zhe Gan Hong-You Chen Zhengfeng Lai Haiming Gang Kai Kang Afshin Dehghan 52 48 0 22 Jul 2024
Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective Zeen Song Jingyao Wang Jianqi Zhang Changwen Zheng Wenwen Qiang SSL 58 0 0 19 Jul 2024
SUMix: Mixup with Semantic and Uncertain Information Huafeng Qin Xin Jin Hongyu Zhu Hongchao Liao M. El-Yacoubi Xinbo Gao UQCV 28 5 0 10 Jul 2024
MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices Jianwen Jiang Gaojie Lin Zhengkun Rong Chao Liang Yongming Zhu Jiaqi Yang Tianyun Zhong 3DH 80 8 0 08 Jul 2024
MMAD: Multi-label Micro-Action Detection in Videos Kun Li Pengyu Liu Pengyu Liu Guoliang Chen Zhiliang Wu Hehe Fan Meng Wang 40 7 0 07 Jul 2024
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model Lu Xu Sijie Zhu Chunyuan Li Chia-Wen Kuo Fan Chen Xinyao Wang Guang Chen Dawei Du Ye Yuan Longyin Wen 36 4 0 15 Jun 2024
MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD Ioanna Ntinou Enrique Sanchez Georgios Tzimiropoulos 36 0 0 11 Jun 2024
Video-based Exercise Classification and Activated Muscle Group Prediction with Hybrid X3D-SlowFast Network Manvik Pasula Pramit Saha 18 0 0 10 Jun 2024
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling Zeyue Tian Zhaoyang Liu Ruibin Yuan Jiahao Pan Xiaoqiang Huang Xu Tan Xu Tan Qifeng Chen Y. Guo VGen 100 16 0 06 Jun 2024
Context-Enhanced Video Moment Retrieval with Large Language Models Weijia Liu Bo Miao Jiuxin Cao Xueling Zhu Bo Liu Mehwish Nasim Ajmal Saeed Mian 29 2 0 21 May 2024
Identity-free Artificial Emotional Intelligence via Micro-Gesture Understanding Rong Gao Xin Liu Bohao Xing Zitong Yu Björn W. Schuller H. Kalviainen 54 3 0 21 May 2024
Bidirectional Progressive Transformer for Interaction Intention Anticipation Zichen Zhang Hongcheng Luo Wei Zhai Yang Cao Yu Kang 22 5 0 09 May 2024
Light-VQA+: A Video Quality Assessment Model for Exposure Correction with Vision-Language Guidance Xunchu Zhou Xiaohong Liu Yunlong Dong Tengchuan Kou Yixuan Gao Zicheng Zhang Chunyi Li Haoning Wu Guangtao Zhai 35 3 0 06 May 2024
MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition Hongyu Qu Rui Yan Xiangbo Shu Haoliang Gao Peng Huang Guo-Sen Xie 54 4 0 03 May 2024
Unifying Global and Local Scene Entities Modelling for Precise Action Spotting Kim Hoang Tran Phuc Vuong Do Ngoc Quoc Ly Ngan Le 36 4 0 15 Apr 2024
Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection Jin Yang Ping Wei Huan Li Ziyang Ren 40 8 0 14 Apr 2024
Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation Swati Jindal Mohit Yadav Roberto Manduchi 26 5 0 08 Apr 2024
Study of the effect of Sharpness on Blind Video Quality Assessment Anantha Prabhu David Pratap Narayana Darapeni R. AnweshP 18 0 0 06 Apr 2024
Koala: Key frame-conditioned long video-LLM Reuben Tan Ximeng Sun Ping Hu Jui-hsien Wang Hanieh Deilamsalehy Bryan A. Plummer Bryan C. Russell Kate Saenko 38 35 0 05 Apr 2024
A Closer Look at Spatial-Slice Features Learning for COVID-19 Detection Chih-Chung Hsu Chia-Ming Lee Chiang Fan Yang Yi-Shiuan Chou Chih-Yu Jiang Shen-Chieh Tai Chin-Han Tsai 31 0 0 02 Apr 2024
$R^2$ -Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding Ye Liu Jixuan He Wanhua Li Junsik Kim D. Wei Hanspeter Pfister Chang Wen Chen 36 13 0 31 Mar 2024
Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition Yash Jain David M. Chan Pranav Dheram Aparna Khare Olabanji Shonibare Venkatesh Ravichandran Shalini Ghosh 40 2 0 28 Mar 2024
Hierarchical Deep Learning for Intention Estimation of Teleoperation Manipulation in Assembly Tasks Mingyu Cai Karankumar Patel Soshi Iba Songpo Li 31 1 0 28 Mar 2024
PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization Edward Fish Jon Weinbren Andrew Gilbert 42 1 0 27 Mar 2024
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World Yifei Huang Guo Chen Jilan Xu Mingfang Zhang Lijin Yang ... Hongjie Zhang Lu Dong Yali Wang Limin Wang Yu Qiao EgoV 60 36 0 24 Mar 2024
Edit3K: Universal Representation Learning for Video Editing Components Xin Gu Libo Zhang Fan Chen Longyin Wen Yufei Wang Tiejian Luo Sijie Zhu 35 4 0 24 Mar 2024
Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding Jingjing Hu Dan Guo Kun Li Zhan Si Xun Yang Xiaojun Chang Meng Wang 59 3 0 21 Mar 2024
On the Utility of 3D Hand Poses for Action Recognition Md Salman Shamil Dibyadip Chatterjee Fadime Sener Shugao Ma Angela Yao 37 5 0 14 Mar 2024
Density-Guided Label Smoothing for Temporal Localization of Driving Actions Tunç Alkanat Erkut Akdag Egor Bondarev Peter H. N. de With 33 4 0 11 Mar 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 36 29 0 20 Feb 2024
Collaboratively Self-supervised Video Representation Learning for Action Recognition Jie M. Zhang Zhifan Wan Lanqing Hu Stephen Lin Shuzhe Wu Shiguang Shan TTA 67 1 0 15 Jan 2024
Efficient Bitrate Ladder Construction using Transfer Learning and Spatio-Temporal Features A. Falahati Mohammad Karim Safavi Ardavan Elahi Farhad Pakdaman M. Gabbouj AI4TS 22 1 0 06 Jan 2024
3DTINC: Time-Equivariant Non-Contrastive Learning for Predicting Disease Progression from Longitudinal OCTs T. Emre A. Chakravarty Antoine Rivail Dmitrii Lachinov Oliver Leingang ... S. Sivaprasad Daniel Rueckert A. Lotery U. Schmidt-Erfurth Hrvoje Bogunović MedIm 27 3 0 28 Dec 2023
Video Recognition in Portrait Mode Mingfei Han Linjie Yang Xiaojie Jin Jiashi Feng Xiaojun Chang Heng Wang 30 3 0 21 Dec 2023
SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization David Pujol-Perich Albert Clapés Sergio Escalera 31 0 0 20 Dec 2023
LMDrive: Closed-Loop End-to-End Driving with Large Language Models Hao Shao Yuxuan Hu Letian Wang Steven L. Waslander Yu Liu Hongsheng Li ELM 33 112 0 12 Dec 2023
From Detection to Action Recognition: An Edge-Based Pipeline for Robot Human Perception Petros Toupas Georgios Tsamis Dimitrios Giakoumis K. Votis Dimitrios Tzovaras 19 0 0 06 Dec 2023
Action Scene Graphs for Long-Form Understanding of Egocentric Videos Ivan Rodin Antonino Furnari Kyle Min Subarna Tripathi G. Farinella EgoV 27 12 0 06 Dec 2023
Unsupervised Video Domain Adaptation with Masked Pre-Training and Collaborative Self-Training Arun V. Reddy William Paul Corban Rivera Ketul Shah Celso M. de Melo Rama Chellappa 37 4 0 05 Dec 2023
Overcoming Label Noise for Source-free Unsupervised Video Domain Adaptation A. Dasgupta C. V. Jawahar Karteek Alahari TTA VLM 16 10 0 30 Nov 2023
Object-based (yet Class-agnostic) Video Domain Adaptation Dantong Niu Amir Bar Roei Herzig Trevor Darrell Anna Rohrbach 22 1 0 29 Nov 2023
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames Shuming Liu Chen-Da Liu-Zhang Chen Zhao Bernard Ghanem 33 25 0 28 Nov 2023
Towards Weakly Supervised End-to-end Learning for Long-video Action Recognition Jiaming Zhou Hanjun Li Kun-Yu Lin Junwei Liang 23 1 0 28 Nov 2023
Modality Mixer Exploiting Complementary Information for Multi-modal Action Recognition Sumin Lee Sangmin Woo Muhammad Adi Nugroho Changick Kim 25 0 0 21 Nov 2023
Unearthing Common Inconsistency for Generalisable Deepfake Detection Beilin Chu Xuan Xu Weike You Linna Zhou 24 0 0 20 Nov 2023
Automated Sperm Assessment Framework and Neural Network Specialized for Sperm Video Recognition T. Fujii Hayato Nakagawa T. Takeshima Y. Yumura T. Hamagami 28 3 0 10 Nov 2023
MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin Qinghong Lin Faisal Ahmed Linjie Li Chung-Ching Lin E. Azarnasab ... Lin Liang Zicheng Liu Yumao Lu Ce Liu Lijuan Wang MLLM 28 63 0 30 Oct 2023
S3Aug: Segmentation, Sampling, and Shift for Action Recognition Taiki Sugiura Toru Tamaki AI4TS 22 2 0 23 Oct 2023
Boundary Discretization and Reliable Classification Network for Temporal Action Detection Zhenying Fang Jun Yu Richang Hong 20 0 0 10 Oct 2023