X3D: Expanding Architectures for Efficient Video Recognition

9 April 2020

Papers citing "X3D: Expanding Architectures for Efficient Video Recognition"

50 / 526 papers shown

Title
Metrics Matter in Surgical Phase Recognition Isabel Funke Dominik Rivoir Stefanie Speidel 14 3 0 23 May 2023
Exploring Few-Shot Adaptation for Activity Recognition on Diverse Domains Kunyu Peng Di Wen David Schneider Jiaming Zhang Kailun Yang M. Sarfraz Rainer Stiefelhagen Alina Roitberg 14 2 0 15 May 2023
MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition Xinyu Gong S. Mohan Naina Dhingra Jean-Charles Bazin Yilei Li Zhangyang Wang Rakesh Ranjan EgoV 39 17 0 12 May 2023
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation Kun Su Judith Yue Li Qingqing Huang Dima Kuzmin Joonseok Lee ... Fei Sha A. Jansen Yu Wang Mauro Verzetti Timo I. Denk VGen 15 12 0 11 May 2023
Transformer-Based Model for Monocular Visual Odometry: A Video Understanding Approach André O. Françani Marcos R. O. A. Máximo 17 8 0 10 May 2023
Visual Tuning Bruce X. B. Yu Jianlong Chang Haixin Wang Lin Liu Shijie Wang ... Lingxi Xie Haojie Li Zhouchen Lin Qi Tian Chang Wen Chen VLM 31 37 0 10 May 2023
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization Théophile Cabannes Shreya Ghosh Raphaël Marinier Tom Gedeon Alexandre M. Bayen Munawar Hayat 50 21 0 03 May 2023
Implicit Temporal Modeling with Learnable Alignment for Video Recognition S. Tu Qi Dai Zuxuan Wu Zhi-Qi Cheng Hang-Rui Hu Yu-Gang Jiang 20 32 0 20 Apr 2023
Search-Map-Search: A Frame Selection Paradigm for Action Recognition Mingjun Zhao Yu Xiaoli Wang Lei Yang Di Niu 13 4 0 20 Apr 2023
Efficient Video Action Detection with Token Dropout and Context Refinement Lei Chen Zhan Tong Yibing Song Gangshan Wu Limin Wang 16 14 0 17 Apr 2023
Morph-SSL: Self-Supervision with Longitudinal Morphing to Predict AMD Progression from OCT A. Chakravarty T. Emre Oliver Leingang Sophie Riedl Julia Mai ... S. Sivaprasad Daniel Rueckert A. Lotery U. Schmidt-Erfurth Hrvoje Bogunović 11 1 0 17 Apr 2023
PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action Recognition Ruiqi Xian Xijun Wang D. Kothandaraman Dinesh Manocha 13 6 0 14 Apr 2023
DeepSegmenter: Temporal Action Localization for Detecting Anomalies in Untrimmed Naturalistic Driving Videos Armstrong Aboah Ulas Bagci Abdul Rashid Mussah Neema Jasika Owor Y. Adu-Gyamfi 13 7 0 13 Apr 2023
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning Nikhil Singh Chih-Wei Wu Iroro Orife Mahdi M. Kalayeh 20 2 0 12 Apr 2023
StillFast: An End-to-End Approach for Short-Term Object Interaction Anticipation Francesco Ragusa G. Farinella Antonino Furnari 16 18 0 08 Apr 2023
Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting Syed Talal Wasim Muzammal Naseer Salman Khan F. Khan M. Shah VLM VPVLM 12 73 0 06 Apr 2023
Diffusion Models as Masked Autoencoders Chen Wei K. Mangalam Po-Yao (Bernie) Huang Yanghao Li Haoqi Fan Hu Xu Huiyu Wang Cihang Xie Alan Yuille Christoph Feichtenhofer DiffM SyDa 23 47 0 06 Apr 2023
VicTR: Video-conditioned Text Representations for Activity Recognition Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo 9 19 0 05 Apr 2023
On the Benefits of 3D Pose and Tracking for Human Action Recognition Jathushan Rajasegaran Georgios Pavlakos Angjoo Kanazawa Christoph Feichtenhofer Jitendra Malik 16 30 0 03 Apr 2023
DOAD: Decoupled One Stage Action Detection Network Shuning Chang Pichao Wang Fan Wang Jiashi Feng Mike Zheng Show 8 4 0 01 Apr 2023
Anatomically aware dual-hop learning for pulmonary embolism detection in CT pulmonary angiograms Florin Condrea S. Rapaka Lucian Itu Puneet Sharma J. Sperl Mohamed Ali Marius Leordeanu 16 5 0 30 Mar 2023
Streaming Video Model Yucheng Zhao Chong Luo Chuanxin Tang Dongdong Chen Noel Codella Zhengjun Zha 20 12 0 30 Mar 2023
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices Petros Toupas Alexander Montgomerie-Corcoran C. Bouganis Dimitrios Tzovaras 20 8 0 30 Mar 2023
Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling Ryo Hachiuma Fumiaki Sato Taiki Sekii 3DPC 10 37 0 27 Mar 2023
A Large-scale Study of Spatiotemporal Representation Learning with a New Benchmark on Action Recognition Andong Deng Taojiannan Yang C. L. P. Chen AI4TS 14 12 0 23 Mar 2023
Confidence Attention and Generalization Enhanced Distillation for Continuous Video Domain Adaptation Xiyu Wang Yuecong Xu Jianfei Yang Xiaoli Li Zhenghua Chen TTA 11 0 0 18 Mar 2023
Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances Arun V. Reddy Ketul Shah William Paul Rohita Mocharla Judy Hoffman Kapil D. Katyal Dinesh Manocha Celso M. de Melo Ramalingam Chellappa 13 17 0 17 Mar 2023
Leaping Into Memories: Space-Time Deep Feature Synthesis Alexandros Stergiou Nikos Deligiannis 17 0 0 17 Mar 2023
Video Action Recognition with Attentive Semantic Units Yifei Chen Dapeng Chen Ruijin Liu Hao Li Wei Peng 11 11 0 17 Mar 2023
PoseRAC: Pose Saliency Transformer for Repetitive Action Counting Ziyu Yao Xuxin Cheng Yuexian Zou ViT 8 19 0 15 Mar 2023
CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Wei Chen Qibo Qiu Long Chen Boxi Wu Binbin Lin Xiaofei He Wei Liu 14 19 0 13 Mar 2023
TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering Wei Lin Anna Kukleva Horst Possegger Hilde Kuehne Horst Bischof 38 2 0 09 Mar 2023
Text-Visual Prompting for Efficient 2D Temporal Video Grounding Yimeng Zhang Xin Chen Jinghan Jia Sijia Liu Ke Ding 11 25 0 09 Mar 2023
Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video Recognition Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin M. Pagnucco Yang Song 3DPC 15 11 0 05 Mar 2023
MITFAS: Mutual Information based Temporal Feature Alignment and Sampling for Aerial Video Action Recognition Ruiqi Xian Xijun Wang Dinesh Manocha 8 8 0 05 Mar 2023
AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning Xijun Wang Ruiqi Xian Tianrui Guan Celso M. de Melo Stephen M. Nogar Aniket Bera Dinesh Manocha 6 10 0 02 Mar 2023
Temporal Coherent Test-Time Optimization for Robust Video Classification Chenyu Yi Siyuan Yang Yufei Wang Haoliang Li Yap-Peng Tan Alex C. Kot TTA 11 12 0 28 Feb 2023
Open Set Action Recognition via Multi-Label Evidential Learning Chen Zhao Dawei Du A. Hoogs Christopher Funk EDL 8 23 0 27 Feb 2023
YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection Jianhua Yang Kun Dai ObjD 8 17 0 14 Feb 2023
Adjacent-Level Feature Cross-Fusion With 3-D CNN for Remote Sensing Image Change Detection Y. Ye Mengmeng Wang Liang Zhou Guangyang Lei Jianwei Fan Yao Qin 3DPC 6 35 0 10 Feb 2023
Efficient End-to-End Video Question Answering with Pyramidal Multimodal Transformer Min Peng Chongyang Wang Yu Shi Xiang-Dong Zhou ViT 31 6 0 04 Feb 2023
Low-Rank Winograd Transformation for 3D Convolutional Neural Networks Ziran Qin Mingbao Lin Weiyao Lin 3DPC 20 2 0 26 Jan 2023
Summarize the Past to Predict the Future: Natural Language Descriptions of Context Boost Multimodal Object Interaction Anticipation Razvan-George Pasca Alexey Gavryushin Muhammad Hamza Yen-Ling Kuo Kaichun Mo Luc Van Gool Otmar Hilliges Xi Wang 14 14 0 22 Jan 2023
Building Scalable Video Understanding Benchmarks through Sports Aniket Agarwal Alex Zhang Karthik Narasimhan Igor Gilitschenski Vishvak Murahari Yash Kant 11 1 0 17 Jan 2023
Learning Sparse Temporal Video Mapping for Action Quality Assessment in Floor Gymnastics Sania Zahan Ghulam Mubashar Hassan Ajmal Saeed Mian 8 6 0 15 Jan 2023
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding Shuhan Tan Tushar Nagarajan Kristen Grauman 8 21 0 05 Jan 2023
Ego-Only: Egocentric Action Detection without Exocentric Transferring Huiyu Wang Mitesh Singh Lorenzo Torresani EgoV 53 22 0 03 Jan 2023
Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition Hasan Hammoud Shuming Liu Mohammad Alkhrashi Fahad Albalawi Bernard Ghanem AAML 11 8 0 03 Jan 2023
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models Wenhao Wu Xiaohan Wang Haipeng Luo Jingdong Wang Yi Yang Wanli Ouyang 94 47 0 31 Dec 2022
An end-to-end multi-scale network for action prediction in videos Xiaofan Liu Jianqin Yin Yuanxi Sun Zhicheng Zhang Jin Tang 8 0 0 31 Dec 2022