End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

28 November 2023

Papers citing "End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames"

25 / 25 papers shown

Title
DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer Ho-Joong Kim Y. E. Lee Jung-Ho Hong Seong-Whan Lee 16 0 0 09 May 2025
Grounding-MD: Grounded Video-language Pre-training for Open-World Moment Detection Weijun Zhuang Qizhang Li Xin Li Ming-Yu Liu Xiaopeng Hong Feng Gao Fan Yang W. Zuo 25 0 0 20 Apr 2025
SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning Fida Mohammad Thoker Letian Jiang Chen Zhao Bernard Ghanem 45 0 0 01 Apr 2025
FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection Xinnan Zhu Yicheng Zhu Tixin Chen Wentao Wu Yuanjie Dang 46 0 0 01 Apr 2025
BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding Shuming Liu Chen Zhao Tianqi Xu Bernard Ghanem VLM 69 0 0 27 Mar 2025
Temporal Action Detection Model Compression by Progressive Block Drop Xiaoyong Chen Yong Guo Jiaming Liang Sitong Zhuang Runhao Zeng Xiping Hu 38 0 0 21 Mar 2025
TimeLoc: A Unified End-to-End Framework for Precise Timestamp Localization in Long Videos Chen-Da Liu-Zhang Lin Sui Shuming Liu Fangzhou Mu Z. Wang Bernard Ghanem 36 1 0 09 Mar 2025
End-to-End Action Segmentation Transformer Tieqiao Wang Sinisa Todorovic ViT 32 0 0 08 Mar 2025
OpenTAD: A Unified Framework and Comprehensive Study of Temporal Action Detection Shuming Liu Chen Zhao Fatimah Zohra Mattia Soldan Alejandro Pardo ... Juan Carlos León Alcázar A. Cioppa Silvio Giancola Carlos Hinojosa Bernard Ghanem 47 3 0 27 Feb 2025
Online Episodic Memory Visual Query Localization with Egocentric Streaming Object Memory Zaira Manigrasso Matteo Dunnhofer Antonino Furnari Moritz Nottebaum Antonio Finocchiaro Davide Marana G. Farinella C. Micheloni 65 1 0 25 Nov 2024
Zero-shot Action Localization via the Confidence of Large Vision-Language Models Josiah Aklilu Xiaohan Wang Serena Yeung-Levy 31 1 0 18 Oct 2024
Harnessing Temporal Causality for Advanced Temporal Action Detection Shuming Liu Lin Sui Chen-Da Liu-Zhang Fangzhou Mu Chen Zhao Bernard Ghanem CML 22 0 0 25 Jul 2024
Semi-Supervised Pipe Video Temporal Defect Interval Localization Zhu Huang Gang Pan Chao Kang Yaozhi Lv 19 0 0 21 Jul 2024
Enhancing Temporal Action Localization: Advanced S6 Modeling with Recurrent Mechanism Sangyoun Lee Juho Jung Changdae Oh Sunghee Yun 29 0 0 18 Jul 2024
MMAD: Multi-label Micro-Action Detection in Videos Kun Li Pengyu Liu Pengyu Liu Guoliang Chen Zhiliang Wu Hehe Fan Meng Wang 25 2 0 07 Jul 2024
Dr $^2$ Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning Chen Zhao Shuming Liu K. Mangalam Guocheng Qian Fatimah Zohra Abdulmohsen Alghannam Jitendra Malik Bernard Ghanem 25 3 0 08 Jan 2024
Adapting Short-Term Transformers for Action Detection in Untrimmed Videos Min Yang Huan Gao Ping Guo Limin Wang ViT 19 2 0 04 Dec 2023
Boundary Discretization and Reliable Classification Network for Temporal Action Detection Zhenying Fang Jun Yu Richang Hong 4 0 0 10 Oct 2023
Revisiting Neural Scaling Laws in Language and Vision Ibrahim M. Alabdulmohsin Behnam Neyshabur Xiaohua Zhai 145 101 0 13 Sep 2022
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition Shoufa Chen Chongjian Ge Zhan Tong Jiangliu Wang Yibing Song Jue Wang Ping Luo 138 631 0 26 May 2022
ETAD: Training Action Detection End to End on a Laptop Shuming Liu Mengmeng Xu Chen Zhao Xu Zhao Bernard Ghanem 20 6 0 14 May 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 255 7,337 0 11 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 212 682 0 13 Oct 2021
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 275 3,784 0 18 Apr 2021
Relaxed Transformer Decoders for Direct Action Proposal Generation Jing Tan Jiaqi Tang Limin Wang Gangshan Wu ViT 67 175 0 03 Feb 2021