TDViT: Temporal Dilated Video Transformer for Dense Video Tasks

TDViT: Temporal Dilated Video Transformer for Dense Video Tasks

14 February 2024

Papers citing "TDViT: Temporal Dilated Video Transformer for Dense Video Tasks"

10 / 10 papers shown

Title
TF-Blender: Temporal Feature Blender for Video Object Detection Yiming Cui Liqi Yan Zhiwen Cao Dongfang Liu ViT 48 100 0 12 Aug 2021
End-to-End Video Object Detection with Spatial-Temporal Transformers Lu He Qianyu Zhou Xiangtai Li Li Niu Guangliang Cheng Xiao Li Wenxuan Liu Yu Tong Lizhuang Ma Liqing Zhang ViT 41 95 0 23 May 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,518 0 27 Feb 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,978 0 09 Feb 2021
Memory Enhanced Global-Local Aggregation for Video Object Detection Yihong Chen Yue Cao Han Hu Liwei Wang 105 261 0 26 Mar 2020
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos A. Athar Sabarinath Mahadevan Aljosa Osep Laura Leal-Taixé Bastian Leibe VOS 70 170 0 18 Mar 2020
Relation Distillation Networks for Video Object Detection Jiajun Deng Yingwei Pan Ting Yao Wen-gang Zhou Houqiang Li Tao Mei ObjD 95 191 0 26 Aug 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 261 10,196 0 16 Nov 2016
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 282 39,170 0 01 Sep 2014