v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 675 papers shown

SnapCap: Efficient Snapshot Compressive Video Captioning

404

10 Jan 2024

Multi-Stage Contrastive Regression for Action Quality Assessment

Qi An

Mengshi Qi

Huadong Ma

202

05 Jan 2024

Glance and Focus: Memory Prompting for Multi-Event Video Question AnsweringNeural Information Processing Systems (NeurIPS), 2024

Ziyi Bai

Ruiping Wang

Xilin Chen

353

03 Jan 2024

Video Understanding with Large Language Models: A Survey

...

760

174

29 Dec 2023

A Strong Baseline for Temporal Video-Text Alignment

271

21 Dec 2023

Hourglass-AVSR: Down-Up Sampling-based Computational Efficiency Model for Audio-Visual Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

260

14 Dec 2023

Generative Model-based Feature Knowledge Distillation for Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2023

245

14 Dec 2023

ConFormer: A Novel Collection of Deep Learning Models to Assist Cardiologists in the Assessment of Cardiac Function

Ethan Thomas

Salman Aslam

MedIm

243

13 Dec 2023

Combined Scheduling, Memory Allocation and Tensor Replacement for Minimizing Off-Chip Data Accesses of DNN Accelerators

Yi Li

Aarti Gupta

Sharad Malik

148

30 Nov 2023

Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains

510

30 Nov 2023

GeoDeformer: Geometric Deformable Transformer for Action Recognition

111

29 Nov 2023

F4D: Factorized 4D Convolutional Neural Network for Efficient Video-level Representation LearningInternational Conference on Agents and Artificial Intelligence (ICAART), 2023

160

28 Nov 2023

Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action RecognitionComputer Vision and Pattern Recognition (CVPR), 2023

310

27 Nov 2023

MoVideo: Motion-Aware Video Generation with Diffusion Models

Christos Sakaridis

Yuchen Fan

Kai Zhang

Radu Timofte

Luc Van Gool

Rakesh Ranjan

DiffM VGen

207

19 Nov 2023

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language ModelsInternational Conference on Learning Representations (ICLR), 2023

...

276

13 Nov 2023

Harvest Video Foundation Models via Efficient Post-Pretraining

Yu Qiao

Ping Luo

CLIP VLM VGen

353

30 Oct 2023

RoboCLIP: One Demonstration is Enough to Learn Robot PoliciesNeural Information Processing Systems (NeurIPS), 2023

Sumedh Anand Sontakke

Jesse Zhang

Sébastien M. R. Arnold

Dorsa Sadigh

244

115

11 Oct 2023

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday TasksAAAI Conference on Artificial Intelligence (AAAI), 2023

315

08 Oct 2023

Multiple Physics Pretraining for Physical Surrogate Models

Michael McCabe

Bruno Régaldo-Saint Blancard

...

293

04 Oct 2023

ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to VideoEuropean Conference on Computer Vision (ECCV), 2023

Xinhao Li

Yuhan Zhu

Limin Wang

VLM

324

02 Oct 2023

Training a Large Video Model on a Single Machine in a Day

Yue Zhao

Philipp Krahenbuhl

VLM

279

28 Sep 2023

Selective Volume Mixup for Video Action Recognition

Tao Mei

216

18 Sep 2023

In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Bernt Schiele

232

16 Sep 2023

UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

Wei Huang

159

15 Sep 2023

Multimodal Fish Feeding Intensity Assessment in AquacultureIEEE Transactions on Automation Science and Engineering (IEEE TASE), 2023

286

10 Sep 2023

EgoPCA: A New Framework for Egocentric Hand-Object Interaction UnderstandingIEEE International Conference on Computer Vision (ICCV), 2023

183

05 Sep 2023

Multimodal Contrastive Learning with Hard Negative Sampling for Human Activity Recognition

231

03 Sep 2023

Self-Supervised Video Transformers for Isolated Sign Language Recognition

Marcelo Sandoval-Castaneda

Yanhong Li

D. Brentari

Karen Livescu

Gregory Shakhnarovich

SLR

281

02 Sep 2023

Computation-efficient Deep Learning for Computer Vision: A Survey

Yulin Wang

Gao Huang

307

27 Aug 2023

Attending Generalizability in Course of Deep Fake Detection by Exploring Multi-task Learning

142

25 Aug 2023

Motion-Guided Masking for Spatiotemporal Representation LearningIEEE International Conference on Computer Vision (ICCV), 2023

213

24 Aug 2023

Masked Feature Modelling: Feature Masking for the Unsupervised Pre-training of a Graph Attention Network Block for Bottom-up Video Event Recognition

Dimitrios Daskalakis

Nikolaos Gkalelis

Vasileios Mezaris

197

24 Aug 2023

NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic VideosACM Multimedia (ACM MM), 2023

212

23 Aug 2023

Opening the Vocabulary of Egocentric ActionsNeural Information Processing Systems (NeurIPS), 2023

Angela Yao

315

22 Aug 2023

Temporal-Distributed Backdoor Attack Against Video Based Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2023

426

21 Aug 2023

Improving Continuous Sign Language Recognition with Cross-Lingual SignsIEEE International Conference on Computer Vision (ICCV), 2023

Fangyun Wei

Yutong Chen

SLR

212

21 Aug 2023

Joint learning of images and videos with a single Vision Transformer

Shuki Shimizu

Toru Tamaki

ViT

182

21 Aug 2023

Seeing in Flowing: Adapting CLIP for Action Recognition with Motion Prompts LearningACM Multimedia (ACM MM), 2023

179

09 Aug 2023

Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality AssessmentACM Multimedia (ACM MM), 2023

250

31 Jul 2023

Sample Less, Learn More: Efficient Action Recognition via Frame Feature RestorationACM Multimedia (ACM MM), 2023

223

27 Jul 2023

What Can Simple Arithmetic Operations Do for Temporal Modeling?IEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

Wanli Ouyang

224

18 Jul 2023

SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence Pre-trainingIEEE International Conference on Computer Vision (ICCV), 2023

283

17 Jul 2023

TALL: Thumbnail Layout for Deepfake Video DetectionIEEE International Conference on Computer Vision (ICCV), 2023

Jian Liang

322

108

14 Jul 2023

TVPR: Text-to-Video Person Retrieval and a New BenchmarkACM Multimedia (ACM MM), 2023

312

14 Jul 2023

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Syed Talal Wasim

Muhammad Uzair Khattak

Salman Khan

260

13 Jul 2023

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the BackboneIEEE International Conference on Computer Vision (ICCV), 2023

351

134

11 Jul 2023

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

495

09 Jul 2023

Vision-Language Models can Identify Distracted Driver Behavior from Naturalistic Videos

Md Zahid Hasan

Jiajing Chen

Jiyang Wang

Mohammed Shaiqur Rahman

365

16 Jun 2023

Seeing the Pose in the Pixels: Learning Pose-Aware Representations in Vision Transformers

261

15 Jun 2023

Learning to Ground Instructional Articles in Videos through NarrationsIEEE International Conference on Computer Vision (ICCV), 2023

E. Mavroudi

Triantafyllos Afouras

Lorenzo Torresani

DiffM

230

06 Jun 2023