End-to-end Learning of Action Detection from Frame Glimpses in Videos

22 November 2015

Li Fei-Fei

Papers citing "End-to-end Learning of Action Detection from Frame Glimpses in Videos"

50 / 276 papers shown

Title
Temporal Action Detection Model Compression by Progressive Block Drop Xiaoyong Chen Yong Guo Jiaming Liang Sitong Zhuang Runhao Zeng Xiping Hu 55 0 0 21 Mar 2025
Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition Yulin Wang Haoji Zhang Yang Yue Shiji Song Chao Deng Junlan Feng Gao Huang 79 3 0 15 Dec 2024
Zero-shot Action Localization via the Confidence of Large Vision-Language Models Josiah Aklilu Xiaohan Wang Serena Yeung-Levy 57 1 0 18 Oct 2024
Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection Xiang Fang Arvind Easwaran B. Genest 36 4 0 16 Sep 2024
Streamlining Forest Wildfire Surveillance: AI-Enhanced UAVs Utilizing the FLAME Aerial Video Dataset for Lightweight and Efficient Monitoring Lemeng Zhao Junjie Hu Jianchao Bi Yanbing Bai Erick Mas Shunichi Koshimura 27 0 0 31 Aug 2024
MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos Zsófia Katona Seyed Sahand Mohamadi Ziabari F. Karimi Nejadasl 27 0 0 25 Jul 2024
Unsupervised Work Behavior Pattern Extraction Based on Hierarchical Probabilistic Model Issei Saito Tomoaki Nakamura Toshiyuki Hatta Wataru Fujita Shintaro Watanabe Shotaro Miwa 33 0 0 16 May 2024
Action Detection via an Image Diffusion Process Lin Geng Foo Tianjiao Li Hossein Rahmani Jun Liu 22 4 0 01 Apr 2024
Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions Runhao Zeng Xiaoyong Chen Jiaming Liang Huisi Wu Guangzhong Cao Yong Guo AAML 39 3 0 29 Mar 2024
VideoAgent: Long-form Video Understanding with Large Language Model as Agent Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy VLM 113 83 0 15 Mar 2024
Text-Conditioned Resampler For Long Form Video Understanding Bruno Korbar Yongqin Xian A. Tonioni Andrew Zisserman Federico Tombari 30 12 0 19 Dec 2023
End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning Jinrong Zhang Wu Wen Sheng-lan Liu Yunheng Li Qifeng Li Lin Feng 29 0 0 27 Sep 2023
Computation-efficient Deep Learning for Computer Vision: A Survey Yulin Wang Yizeng Han Chaofei Wang Shiji Song Qi Tian Gao Huang VLM 31 20 0 27 Aug 2023
Data-Side Efficiencies for Lightweight Convolutional Neural Networks Bryan Bo Cao Lawrence O'Gorman Michael J. Coss Shubham Jain 14 1 0 24 Aug 2023
Self-Feedback DETR for Temporal Action Detection Jihwan Kim Miso Lee Jae-Pil Heo 37 17 0 21 Aug 2023
Audio-Visual Glance Network for Efficient Video Recognition Muhammad Adi Nugroho Sangmin Woo Sumin Lee Changick Kim 11 5 0 18 Aug 2023
Progression-Guided Temporal Action Detection in Videos Chongkai Lu Man-Wai Mak Ruimin Li Z. Chi Hong Fu AI4TS 17 0 0 18 Aug 2023
View while Moving: Efficient Video Recognition in Long-untrimmed Videos Ye Tian Meng Yang Lanshan Zhang Zhizhen Zhang Yang Liu Xiao-Zhu Xie Xirong Que Wendong Wang 24 7 0 09 Aug 2023
SpotEM: Efficient Video Search for Episodic Memory Santhosh Kumar Ramakrishnan Ziad Al-Halah Kristen Grauman VLM 28 9 0 28 Jun 2023
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning Jianghui Wang Yuxuan Wang Dongyan Zhao Zilong Zheng 41 1 0 04 Jun 2023
Collaborative Multi-Agent Video Fast-Forwarding Shuyue Lan Zhilu Wang Ermin Wei A. Roy-Chowdhury Qi Zhu 28 3 0 27 May 2023
Search-Map-Search: A Frame Selection Paradigm for Action Recognition Mingjun Zhao Yu Xiaoli Wang Lei Yang Di Niu 21 5 0 20 Apr 2023
Learning to Explore Informative Trajectories and Samples for Embodied Perception Ya Jing Tao Kong 19 5 0 20 Mar 2023
A Dynamic Multi-Scale Voxel Flow Network for Video Prediction Xiaotao Hu Zhewei Huang Ailin Huang Jun Xu Shuchang Zhou VGen 30 69 0 17 Mar 2023
Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations Sagnik Majumder Hao Jiang Pierre Moulon E. Henderson P. Calamia Kristen Grauman V. Ithapu EgoV 29 7 0 04 Jan 2023
Look More but Care Less in Video Recognition Yitian Zhang Yue Bai Haiquan Wang Yi Xu Yun Fu 25 9 0 18 Nov 2022
Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task Jannik Kossen Cătălina Cangea Eszter Vértes Andrew Jaegle Viorica Patraucean Ira Ktena Nenad Tomašev Danielle Belgrave 30 8 0 09 Nov 2022
SimOn: A Simple Framework for Online Temporal Action Localization Tuan N. Tang Jungin Park Kwonyoung Kim K. Sohn 25 3 0 08 Nov 2022
AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition Yulin Wang Yang Yue Xin-Wen Xu Ali Hassani V. Kulikov Nikita Orlov S. Song Humphrey Shi Gao Huang 24 17 0 27 Sep 2022
Survey: Exploiting Data Redundancy for Optimization of Deep Learning Jou-An Chen Wei Niu Bin Ren Yanzhi Wang Xipeng Shen 23 24 0 29 Aug 2022
P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos Jiang Bian Xuhong Li Tao Wang Qingzhong Wang Jun Huang Chen Liu Jun Zhao Feixiang Lu Dejing Dou Haoyi Xiong 16 10 0 26 Jul 2022
An Efficient Spatio-Temporal Pyramid Transformer for Action Detection Yuetian Weng Zizheng Pan Mingfei Han Xiaojun Chang Bohan Zhuang ViT 19 25 0 21 Jul 2022
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition Boyang Xia Wenhao Wu Haoran Wang Rui Su Dongliang He Haosen Yang Xiaoran Fan Wanli Ouyang 17 21 0 21 Jul 2022
Forcing the Whole Video as Background: An Adversarial Learning Strategy for Weakly Temporal Action Localization Ziqiang Li Yongxin Ge Jiaruo Yu Zhongming Chen 17 18 0 14 Jul 2022
Programmatic Concept Learning for Human Motion Description and Synthesis Sumith Kulal Jiayuan Mao A. Aiken Jiajun Wu 25 7 0 27 Jun 2022
Pyramid Region-based Slot Attention Network for Temporal Action Proposal Generation Shuaicheng Li Feng Zhang Ruiwei Zhao Rui Feng Kunlin Yang Lin-Na Liu Jun Hou ViT 23 5 0 21 Jun 2022
Scalable Temporal Localization of Sensitive Activities in Movies and TV Episodes Xiang Hao Jingxiang Chen Shixing Chen Ahmed Saad Raffay Hamid AI4TS 23 0 0 16 Jun 2022
Revisiting the "Video" in Video-Language Understanding S. Buch Cristobal Eyzaguirre Adrien Gaidon Jiajun Wu L. Fei-Fei Juan Carlos Niebles 27 156 0 03 Jun 2022
Weakly-Supervised Action Detection Guided by Audio Narration Keren Ye Adriana Kovashka 22 0 0 12 May 2022
Probabilistic Representations for Video Contrastive Learning Jungin Park Jiyoung Lee Ig-Jae Kim K. Sohn SSL 26 43 0 08 Apr 2022
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment Jinglin Xu Yongming Rao Xumin Yu Guangyi Chen Jie Zhou Jiwen Lu 25 88 0 07 Apr 2022
Temporal Alignment Networks for Long-term Video Tengda Han Weidi Xie Andrew Zisserman AI4TS 20 82 0 06 Apr 2022
An Empirical Study of End-to-End Temporal Action Detection Xiaolong Liu S. Bai Xiang Bai 19 58 0 06 Apr 2022
Consistency driven Sequential Transformers Attention Model for Partially Observable Scenes Samrudhdhi B. Rangrej C. Srinidhi J. Clark 11 12 0 01 Apr 2022
OpenTAL: Towards Open Set Temporal Action Localization Wentao Bao Qi Yu Yu Kong EDL 30 26 0 10 Mar 2022
OCSampler: Compressing Videos to One Clip with Single-step Sampling Jintao Lin Haodong Duan Kai-xiang Chen Dahua Lin Limin Wang 32 24 0 12 Jan 2022
AdaFocus V2: End-to-End Training of Spatial Dynamic Networks for Video Recognition Yulin Wang Yang Yue Yuanze Lin Haojun Jiang Zihang Lai V. Kulikov Nikita Orlov Humphrey Shi Gao Huang 16 50 0 28 Dec 2021
SVIP: Sequence VerIfication for Procedures in Videos Yichen Qian Weixin Luo Dongze Lian Xu Tang P. Zhao Shenghua Gao ViT 21 17 0 13 Dec 2021
Prompting Visual-Language Models for Efficient Video Understanding Chen Ju Tengda Han Kunhao Zheng Ya-Qin Zhang Weidi Xie VPVLM VLM 22 363 0 08 Dec 2021
DCAN: Improving Temporal Action Detection via Dual Context Aggregation Guo Chen Yin-Dong Zheng Limin Wang Tong Lu AI4TS 24 70 0 07 Dec 2021