v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 675 papers shown

DCAN: Improving Temporal Action Detection via Dual Context Aggregation

207

07 Dec 2021

^2

(GO)MOTION: Motion Augmented Event Stream for Egocentric Action Recognition

Matteo Matteucci

242

07 Dec 2021

STSM: Spatio-Temporal Shift Module for Efficient Action Recognition

Zhaoqilin Yang

Gaoyun An

202

05 Dec 2021

PreViTS: Contrastive Pretraining with Video Tracking Supervision

Brian Chen

Ramprasaath R. Selvaraju

241

01 Dec 2021

LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question AnsweringIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

Jingjing Jiang

Zi-yi Liu

N. Zheng

318

29 Nov 2021

Video Frame Interpolation TransformerComputer Vision and Pattern Recognition (CVPR), 2021

Zhihao Shi

Xiangyu Xu

Xiaohong Liu

Jun Chen

Ming-Hsuan Yang

ViT

303

205

27 Nov 2021

SwinBERT: End-to-End Transformers with Sparse Attention for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2021

Zicheng Liu

337

299

25 Nov 2021

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

Zicheng Liu

402

239

24 Nov 2021

Advancing High-Resolution Video-Language Representation with Large-Scale Video TranscriptionsComputer Vision and Pattern Recognition (CVPR), 2021

241

249

19 Nov 2021

Induce, Edit, Retrieve: Language Grounded Multimodal Schema for Instructional Video Retrieval

261

17 Nov 2021

A Survey of Visual TransformersIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

Yang Liu

467

477

11 Nov 2021

Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos

Bing Li

135

05 Nov 2021

Revisiting spatio-temporal layouts for compositional action recognitionBritish Machine Vision Conference (BMVC), 2021

Gorjan Radevski

Marie-Francine Moens

Tinne Tuytelaars

209

02 Nov 2021

Masking Modalities for Cross-modal Video RetrievalIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

292

01 Nov 2021

ST-ABN: Visual Explanation Taking into Account Spatio-temporal Information for Video Recognition

208

29 Oct 2021

Temporal-attentive Covariance Pooling Networks for Video Recognition

303

27 Oct 2021

Using Motion History Images with 3D Convolutional Networks in Isolated Sign Language RecognitionIEEE Access (IEEE Access), 2021

Hamed Valizadegan

D. Caldwell

SLR

138

24 Oct 2021

Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional VideosNeural Information Processing Systems (NeurIPS), 2021

204

20 Oct 2021

Constrained Mean Shift for Representation Learning

Ajinkya Tejankar

Soroush Abbasi Koohpayegani

Hamed Pirsiavash

SSL

149

19 Oct 2021

LSTC: Boosting Atomic Action Detection with Long-Short-Term Context

Yabiao Wang

Chengjie Wang

149

19 Oct 2021

MAAD: A Model and Dataset for "Attended Awareness" in Driving

125

16 Oct 2021

Benchmarking the Robustness of Spatial-Temporal Models Against Corruptions

238

13 Oct 2021

TAda! Temporally-Adaptive Convolutions for Video UnderstandingInternational Conference on Learning Representations (ICLR), 2021

415

12 Oct 2021

Early Melanoma Diagnosis with Sequential Dermoscopic ImagesIEEE Transactions on Medical Imaging (IEEE TMI), 2021

242

12 Oct 2021

Video Is Graph: Structured Graph Module for Video Action Recognition

Rongjie Li

Xiaojun Wu

Tianyang Xu

365

12 Oct 2021

Spatio-Temporal Video Representation Learning for AI Based Video Playback Style Prediction

142

03 Oct 2021

Unsupervised Few-Shot Action Recognition via Action-Appearance Aligned Meta-Adaptation

231

30 Sep 2021

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

Hu Xu

Gargi Ghosh

Po-Yao (Bernie) Huang

Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

CLIP VLM

805

690

28 Sep 2021

TSM: Temporal Shift Module for Efficient and Scalable Video Understanding on Edge DeviceIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Ji Lin

Chuang Gan

Kuan-Chieh Wang

Song Han

168

27 Sep 2021

Joint Multimedia Event Extraction from Video and ArticleConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Heng Ji

153

27 Sep 2021

Group Shift Pointwise Convolution for Volumetric Medical Image SegmentationInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2021

Junjun He

Jin Ye

Cheng Li

Yu Qiao

117

26 Sep 2021

$Audio-Visual Speech Recognition is Worth 32$\times$32$\times$8 Voxels$

Audio-Visual Speech Recognition is Worth 32

\times

\times

182

20 Sep 2021

Towards High-Quality Temporal Action Detection with Sparse Proposals

148

18 Sep 2021

ActionCLIP: A New Paradigm for Video Action Recognition

Mengmeng Wang

Jiazheng Xing

Yong Liu

VLM

395

463

17 Sep 2021

Overview of Tencent Multi-modal Ads Video Understanding Challenge

144

16 Sep 2021

Deep Visual Navigation under Partial Observability

233

16 Sep 2021

Multi-modal Representation Learning for Video Advertisement Content Structuring

Daya Guo

Zhaoyang Zeng

113

04 Sep 2021

Revisiting 3D ResNets for Video Recognition

Xianzhi Du

252

03 Sep 2021

Hierarchical 3D Feature Learning for Pancreas Segmentation

Federica Proietto Salanitri

03 Sep 2021

DNNFusion: Accelerating Deep Neural Networks Execution with Advanced Operator FusionACM Transactions on Architecture and Code Optimization (TACO) (TACO), 2020

225

187

30 Aug 2021

Efficient Visual Recognition with Deep Neural Networks: A Survey on Recent Advances and New DirectionsMachine Intelligence Research (MIR), 2021

378

30 Aug 2021

Searching for Two-Stream Models in Multivariate Space for Video RecognitionIEEE International Conference on Computer Vision (ICCV), 2021

Heng Wang

190

30 Aug 2021

Shifted Chunk Transformer for Spatio-Temporal Representational LearningNeural Information Processing Systems (NeurIPS), 2021

299

26 Aug 2021

Identity-aware Graph Memory Network for Action DetectionACM Multimedia (ACM MM), 2021

Jingcheng Ni

Jie Qin

Di Huang

183

26 Aug 2021

Spatio-Temporal Self-Attention Network for Video Saliency PredictionIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

328

24 Aug 2021

ParamCrop: Parametric Cubic Cropping for Video Contrastive LearningIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

336

24 Aug 2021

TACo: Token-aware Cascade Contrastive Learning for Video-Text AlignmentIEEE International Conference on Computer Vision (ICCV), 2021

Jianwei Yang

Yonatan Bisk

Jianfeng Gao

220

154

23 Aug 2021

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition

Jiawei Chen

C. Ho

ViT

259

101

20 Aug 2021

Self-Supervised Video Representation Learning with Meta-Contrastive Network

252

19 Aug 2021

Multi-Camera Trajectory Forecasting with Trajectory TensorsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Olly Styles

T. Guha

Victor Sanchez

125

10 Aug 2021