v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 675 papers shown

Building Scalable Video Understanding Benchmarks through Sports

205

17 Jan 2023

TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders using Hierarchical Maps DistillationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Feiyan Hu

S. Palazzo

Federica Proietto Salanitri

181

11 Jan 2023

Augmenting Ego-Vehicle for Traffic Near-Miss and Accident Classification Dataset using Manipulating Conditional Style TranslationInternational Conference on Digital Image Computing: Techniques and Applications (DICTA), 2022

Hilmil Pradana

Minh-Son Dao

K. Zettsu

147

06 Jan 2023

HierVL: Learning Hierarchical Video-Language EmbeddingsComputer Vision and Pattern Recognition (CVPR), 2023

447

05 Jan 2023

What You Say Is What You Show: Visual Narration Detection in Instructional Videos

362

05 Jan 2023

Test of Time: Instilling Video-Language Models with a Sense of TimeComputer Vision and Pattern Recognition (CVPR), 2023

Piyush Bagad

Makarand Tapaswi

Cees G. M. Snoek

465

05 Jan 2023

Look, Listen, and Attack: Backdoor Attacks Against Video Action Recognition

291

03 Jan 2023

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Jingdong Wang

Wanli Ouyang

401

31 Dec 2022

An end-to-end multi-scale network for action prediction in videos

Xiaofan Liu

Jianqin Yin

Yuanxi Sun

Zhicheng Zhang

Jin Tang

167

31 Dec 2022

StepNet: Spatial-temporal Part-aware Network for Isolated Sign Language Recognition

337

25 Dec 2022

Similarity Contrastive Estimation for Image and Video Soft Contrastive Self-Supervised LearningMachine Vision and Applications (MVA), 2022

277

21 Dec 2022

MoQuad: Motion-focused Quadruple Construction for Video Contrastive Learning

Yuan Liu

Jiacheng Chen

Hao Wu

235

21 Dec 2022

Cross-Modal Learning with 3D Deformable Attention for Action RecognitionIEEE International Conference on Computer Vision (ICCV), 2022

334

12 Dec 2022

VindLU: A Recipe for Effective Video-and-Language PretrainingComputer Vision and Pattern Recognition (CVPR), 2022

Gedas Bertasius

290

09 Dec 2022

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

354

09 Dec 2022

Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene SegmentationIEEE Access (IEEE Access), 2022

Wei Liu

199

09 Dec 2022

DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera Based Activity RecognitionNeural Networks (NN), 2022

218

07 Dec 2022

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video LearningComputer Vision and Pattern Recognition (CVPR), 2022

240

06 Dec 2022

VLG: General Video Recognition with Web Textual KnowledgeInternational Journal of Computer Vision (IJCV), 2022

255

03 Dec 2022

Masked Contrastive Pre-Training for Efficient Video-Text Retrieval

190

02 Dec 2022

Query Efficient Cross-Dataset Transferable Black-Box Attack on Action Recognition

214

23 Nov 2022

Dynamic Appearance: A Video Representation for Action Recognition with Joint Training

Guoxi Huang

A. Bors

178

23 Nov 2022

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent AttentionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

179

21 Nov 2022

Generalizable Deepfake Detection with Phase-Based Motion AnalysisIEEE Transactions on Image Processing (IEEE TIP), 2022

Ekta Prashnani

Michael Goebel

B. S. Manjunath

212

17 Nov 2022

Dynamic Temporal Filtering in Video ModelsEuropean Conference on Computer Vision (ECCV), 2022

Fuchen Long

Zhaofan Qiu

Yingwei Pan

Ting Yao

Chong-Wah Ngo

Tao Mei

AI4TS

237

15 Nov 2022

Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity Recognition

129

08 Nov 2022

Two-Stream Network for Sign Language Recognition and TranslationNeural Information Processing Systems (NeurIPS), 2022

243

202

02 Nov 2022

Sparse in Space and Time: Audio-visual Synchronisation with Trainable SelectorsBritish Machine Vision Conference (BMVC), 2022

Vladimir E. Iashin

Weidi Xie

Esa Rahtu

Andrew Zisserman

151

13 Oct 2022

Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive LearningNeural Information Processing Systems (NeurIPS), 2022

297

12 Oct 2022

Contrastive Video-Language Learning with Fine-grained Frame Sampling

Yujie Zhong

233

10 Oct 2022

Quantitative Metrics for Evaluating Explanations of Video DeepFake DetectorsBritish Machine Vision Conference (BMVC), 2022

Federico Baldassarre

Quentin Debard

Gonzalo Fiz Pontiveros

Tri Kurniawan Wijaya

223

07 Oct 2022

Locate before Answering: Answer Guided Question Localization for Video Question AnsweringIEEE transactions on multimedia (IEEE TMM), 2022

346

05 Oct 2022

Alignment-guided Temporal Attention for Video Action RecognitionNeural Information Processing Systems (NeurIPS), 2022

155

30 Sep 2022

Make-A-Video: Text-to-Video Generation without Text-Video DataInternational Conference on Learning Representations (ICLR), 2022

...

Devi Parikh

305

1,807

29 Sep 2022

Rethinking Resolution in the Context of Efficient Video RecognitionNeural Information Processing Systems (NeurIPS), 2022

Ping Luo

Xiaojuan Qi

224

26 Sep 2022

LGDN: Language-Guided Denoising Network for Video-Language ModelingNeural Information Processing Systems (NeurIPS), 2022

Mingyu Ding

282

23 Sep 2022

Multi-level Adversarial Spatio-temporal Learning for Footstep Pressure based FoG DetectionIEEE journal of biomedical and health informatics (IEEE JBHI), 2022

Kun Hu

Shaohui Mei

Zhiyong Wang

206

22 Sep 2022

OmniVL:One Foundation Model for Image-Language and Video-Language TasksNeural Information Processing Systems (NeurIPS), 2022

Zuxuan Wu

Lu Yuan

294

178

15 Sep 2022

Multiple View Performers for Shape Completion

Nicholas R. Waytowich

142

13 Sep 2022

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual ModelingComputer Vision and Pattern Recognition (CVPR), 2022

Zicheng Liu

633

04 Sep 2022

Dynamic Spatio-Temporal Specialization Learning for Fine-Grained Action RecognitionEuropean Conference on Computer Vision (ECCV), 2022

218

03 Sep 2022

ModSelect: Automatic Modality Selection for Synthetic-to-Real Domain Generalization

232

19 Aug 2022

M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval

Weize Quan

Dong-Ming Yan

145

16 Aug 2022

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal SaliencyEuropean Conference on Computer Vision (ECCV), 2022

Michael Rubinstein

217

14 Aug 2022

Motion Sensitive Contrastive Learning for Self-supervised Video RepresentationEuropean Conference on Computer Vision (ECCV), 2022

193

12 Aug 2022

Class-attention Video Transformer for Engagement Intensity Prediction

142

12 Aug 2022

Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction

Longfei Han

179

10 Aug 2022

Sports Video Analysis on Large-Scale DataEuropean Conference on Computer Vision (ECCV), 2022

Dekun Wu

Henghui Zhao

Xingce Bao

Richard P. Wildes

146

09 Aug 2022

Frozen CLIP Models are Efficient Video LearnersEuropean Conference on Computer Vision (ECCV), 2022

Yu Qiao

260

254

06 Aug 2022

Expanding Language-Image Pretrained Models for General Video RecognitionEuropean Conference on Computer Vision (ECCV), 2022

338

433

04 Aug 2022