v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 675 papers shown

Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily LivingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

208

03 Aug 2022

Two-Stream Transformer Architecture for Long Video UnderstandingBritish Machine Vision Conference (BMVC), 2022

02 Aug 2022

Video Question Answering with Iterative Video-Text Co-TokenizationEuropean Conference on Computer Vision (ECCV), 2022

236

01 Aug 2022

Static and Dynamic Concepts for Self-supervised Video Representation LearningEuropean Conference on Computer Vision (ECCV), 2022

176

26 Jul 2022

P2ANet: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos

Jiang Bian

Haoyi Xiong

189

26 Jul 2022

Exploring Fine-Grained Audiovisual Categorization with the SSW60 DatasetEuropean Conference on Computer Vision (ECCV), 2022

198

21 Jul 2022

NSNet: Non-saliency Suppression Sampler for Efficient Video RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Wanli Ouyang

225

21 Jul 2022

Temporal Saliency Query Network for Efficient Video RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Jungong Han

220

21 Jul 2022

GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation LearningEuropean Conference on Computer Vision (ECCV), 2022

193

20 Jul 2022

Is an Object-Centric Video Representation Beneficial for Transfer?Asian Conference on Computer Vision (ACCV), 2022

346

20 Jul 2022

ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention networkIEEE Access (IEEE Access), 2022

Nikolaos Gkalelis

Dimitrios Daskalakis

Vasileios Mezaris

202

20 Jul 2022

Learning Sequence Representations by Non-local Recurrent Neural MemoryInternational Journal of Computer Vision (IJCV), 2022

286

20 Jul 2022

ERA: Expert Retrieval and Assembly for Early Action PredictionEuropean Conference on Computer Vision (ECCV), 2022

287

20 Jul 2022

SVGraph: Learning Semantic Graphs from Instructional VideosIEEE International Conference on Multimedia Big Data (ICMBD), 2022

Madeline Chantry Schiappa

Yogesh S Rawat

238

16 Jul 2022

TS2-Net: Token Shift and Selection Transformer for Text-Video RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Qin Jin

261

169

16 Jul 2022

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models

172

15 Jul 2022

Long-term Leap Attention, Short-term Periodic Shift for Video ClassificationACM Multimedia (ACM MM), 2022

Chong-Wah Ngo

174

12 Jul 2022

Video Graph Transformer for Video Question AnsweringEuropean Conference on Computer Vision (ECCV), 2022

492

12 Jul 2022

Dual Contrastive Learning for Spatio-temporal RepresentationACM Multimedia (ACM MM), 2022

150

12 Jul 2022

VidConv: A modernized 2D ConvNet for Efficient Video Recognition

179

08 Jul 2022

Video Dialog as Conversation about Objects Living in Space-TimeEuropean Conference on Computer Vision (ECCV), 2022

209

08 Jul 2022

Robustness Analysis of Video-Language Models Against Visual and Language PerturbationsNeural Information Processing Systems (NeurIPS), 2022

Madeline Chantry Schiappa

581

05 Jul 2022

Large-scale Robustness Analysis of Video Action Recognition ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Madeline Chantry Schiappa

272

04 Jul 2022

GraphVid: It Only Takes a Few Nodes to Understand a VideoEuropean Conference on Computer Vision (ECCV), 2022

Eitan Kosman

Dotan Di Castro

GNN

234

04 Jul 2022

Revisiting Classifier: Transferring Vision-Language Models for Video RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2022

Wenhao Wu

Zhun Sun

Wanli Ouyang

VLM

394

125

04 Jul 2022

Exploring Temporally Dynamic Data Augmentation for Video RecognitionInternational Conference on Learning Representations (ICLR), 2022

219

30 Jun 2022

ST-Adapter: Parameter-Efficient Image-to-Video Transfer LearningNeural Information Processing Systems (NeurIPS), 2022

364

264

27 Jun 2022

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action VideosComputer Vision and Pattern Recognition (CVPR), 2022

210

25 Jun 2022

Explore Spatio-temporal Aggregation for Insubstantial Object Detection: Benchmark Dataset and BaselineComputer Vision and Pattern Recognition (CVPR), 2022

Yibo Wang

Xun Cao

206

23 Jun 2022

Symmetric Network with Spatial Relationship Modeling for Natural Language-based Vehicle Retrieval

146

22 Jun 2022

Bi-Calibration Networks for Weakly-Supervised Video Representation LearningInternational Journal of Computer Vision (IJCV), 2022

Tao Mei

252

21 Jun 2022

Self-Supervised Learning for Videos: A SurveyACM Computing Surveys (ACM CSUR), 2022

Madeline Chantry Schiappa

Yogesh S Rawat

M. Shah

SSL

474

166

18 Jun 2022

MineDojo: Building Open-Ended Embodied Agents with Internet-Scale KnowledgeNeural Information Processing Systems (NeurIPS), 2022

Linxi Fan

De-An Huang

465

493

17 Jun 2022

Stand-Alone Inter-Frame Attention in Video ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Yingwei Pan

Tao Mei

173

14 Jun 2022

MLP-3D: A MLP-like 3D Architecture with Grouped Time MixingComputer Vision and Pattern Recognition (CVPR), 2022

Zhaofan Qiu

Ting Yao

Chong-Wah Ngo

Tao Mei

ViT

203

13 Jun 2022

Words are all you need? Language as an approximation for human similarity judgmentsInternational Conference on Learning Representations (ICLR), 2022

258

08 Jun 2022

Egocentric Video-Language PretrainingNeural Information Processing Systems (NeurIPS), 2022

Rui Yan

...

Hongfa Wang

Dima Damen

Guohao Li

Wei Liu

Mike Zheng Shou

VLM EgoV

268

247

03 Jun 2022

A Survey on Video Action Recognition in Sports: Datasets, Methods and ApplicationsIEEE transactions on multimedia (IEEE TMM), 2022

Fei Wu

Qingzhong Wang

Jian Bian

Haoyi Xiong

244

02 Jun 2022

Deep Posterior Distribution-based Embedding for Hyperspectral Image Super-resolutionIEEE Transactions on Image Processing (IEEE TIP), 2022

215

30 May 2022

Learning to Answer Visual Questions from Web VideosIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

314

10 May 2022

BasicTAD: an Astounding RGB-Only Baseline for Temporal Action DetectionComputer Vision and Image Understanding (CVIU), 2022

269

05 May 2022

In Defense of Image Pre-Training for Spatiotemporal RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Jieru Mei

Cihang Xie

155

03 May 2022

Preserve Pre-trained Knowledge: Transfer Learning With Self-Distillation For Action Recognition

307

01 May 2022

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Ying Shan

Ping Luo

157

26 Apr 2022

Contrastive Language-Action Pre-training for Temporal Localization

186

26 Apr 2022

Temporal Relevance Analysis for Video Action Models

161

25 Apr 2022

Enable Deep Learning on Mobile Devices: Methods, Systems, and Applications

Zhijian Liu

Song Han

254

133

25 Apr 2022

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

179

20 Apr 2022

Temporally Efficient Vision Transformer for Video Instance SegmentationComputer Vision and Pattern Recognition (CVPR), 2022

Shusheng Yang

Ying Shan

184

18 Apr 2022

Video Action Detection: Analysing Limitations and Challenges

207

17 Apr 2022