v1v2 (latest)

Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification

13 December 2017

Papers citing "Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification"

50 / 675 papers shown

EEA: Exploration-Exploitation Agent for Long Video Understanding

03 Dec 2025

Towards an Effective Action-Region Tracking Framework for Fine-grained Video Action Recognition

196

26 Nov 2025

Learning Skill-Attributes for Transferable Assessment in Video

Kumar Ashutosh

Kristen Grauman

190

17 Nov 2025

Do Blind Spots Matter for Word-Referent Mapping? A Computational Study with Infant Egocentric Video

155

13 Nov 2025

AdSum: Two-stream Audio-visual Summarization for Automated Video Advertisement Clipping

Agata Lapedriza Garcia

Sarah Ostadabbas

30 Oct 2025

Seeing, Signing, and Saying: A Vision-Language Model-Assisted Pipeline for Sign Language Data Acquisition and Curation from Social Media

266

29 Oct 2025

Sign Language Translation with Sentence Embedding SupervisionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

296

22 Oct 2025

DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification

17 Oct 2025

Prompt-guided Disentangled Representation for Action Recognition

243

26 Sep 2025

Temporally Heterogeneous Graph Contrastive Learning for Multimodal Acoustic event Classification

Yuanjian Chen

Yang Xiao

Jinjie Huang

18 Sep 2025

Video Understanding by Design: How Datasets Shape Architectures and Insights

241

11 Sep 2025

Aligning Moments in Time using Video Queries

286

21 Aug 2025

CRAM: Large-scale Video Continual Learning with Bootstrapped Compression

Shivani Mall

Joao F. Henriques

CLL VLM

160

07 Aug 2025

Hybrid Hypergraph Networks for Multimodal Sequence Data Classification

114

30 Jul 2025

Multi-Focus Temporal Shifting for Precise Event Spotting in Sports Videos

Hao Xu

Sam Wells

Mohamed Reda Bouadjenek

Richard Dazeley

334

10 Jul 2025

AI-Generated Video Detection via Perceptual Straightening

341

01 Jul 2025

EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization

Xiaoqi Wang

Yi Wang

Lap-Pui Chau

192

17 Jun 2025

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

202

15 Jun 2025

An Effective End-to-End Solution for Multimodal Action RecognitionInternational Conference on Pattern Recognition (ICPR), 2025

247

11 Jun 2025

Geo-Sign: Hyperbolic Contrastive Regularisation for Geometrically Aware Sign Language Translation

Edward Fish

Richard Bowden

SLR

611

30 May 2025

Unsupervised Transcript-assisted Video Summarization and Highlight Detection

Spyros Barbakos

Charalampos Antoniadis

Gerasimos Potamianos

Gianluca Setti

OffRL AI4TS

465

29 May 2025

CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge

169

26 May 2025

Advancing Video Self-Supervised Learning via Image Foundation ModelsPattern Recognition Letters (Pattern Recogn. Lett.), 2025

Jingwei Wu

Zhewei Huang

Chang Liu

218

25 May 2025

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

Jiahui Zhang

Yusen Luo

Abrar Anwar

Sumedh Anand Sontakke

426

16 May 2025

Audio-Visual Class-Incremental Learning for Fish Feeding intensity Assessment in Aquaculture

345

21 Apr 2025

Text-Audio-Visual-conditioned Diffusion Model for Video Saliency Prediction

251

19 Apr 2025

DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction

985

14 Apr 2025

Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition

333

17 Mar 2025

Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis

Amir Hosein Fadaei

M. Dehaqani

343

11 Feb 2025

Imitation Learning from a Single Temporally Misaligned Video

391

08 Feb 2025

EditIQ: Automated Cinematic Editing of Static Wide-Angle Videos via Dialogue Interpretation and Saliency CuesInternational Conference on Intelligent User Interfaces (IUI), 2025

Rohit Girmaji

Bhav Beri

Ramanathan Subramanian

Vineet Gandhi

VGen

546

04 Feb 2025

Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action CuesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

220

01 Feb 2025

BILLNET: A Binarized Conv3D-LSTM Network with Logic-gated residual architecture for hardware-efficient video inferenceIEEE Workshop on Signal Processing Systems (SiPS), 2022

343

24 Jan 2025

WhACC: Whisker Automatic Contact Classifier with Expert Human-Level PerformancebioRxiv (bioRxiv), 2023

Phillip Maire

Samson G. King

Jonathan Andrew Cheung

Stefanie Walker

Samuel Andrew Hires

325

06 Jan 2025

GFG -- Gender-Fair Generation: A CALAMITA Challenge

320

31 Dec 2024

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

292

15 Dec 2024

Reversing the Damage: A QP-Aware Transformer-Diffusion Approach for 8K Video Restoration under Codec CompressionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Ali Mollaahmadi Dehaghi

Reza Razavi

Mohammad Moshirpour

341

12 Dec 2024

Relevance-guided Audio Visual Fusion for Video Saliency Prediction

323

18 Nov 2024

AM Flow: Adapters for Temporal Processing in Action Recognition

247

04 Nov 2024

MM-WLAuslan: Multi-View Multi-Modal Word-Level Australian Sign Language Recognition DatasetNeural Information Processing Systems (NeurIPS), 2024

Xin Shen

...

191

25 Oct 2024

GenAI Assisting Medical Training

169

21 Oct 2024

Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond

Shanshan Han

608

09 Oct 2024

Grounding is All You Need? Dual Temporal Grounding for Video Dialog

Xun Yang

Dan Guo

Roger Zimmermann

Lizi Liao

VGen

294

08 Oct 2024

Enhancing Temporal Modeling of Video LLMs via Time GatingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Liwei Wang

194

08 Oct 2024

VEDIT: Latent Prediction Architecture For Procedural Video Representation LearningInternational Conference on Learning Representations (ICLR), 2024

300

04 Oct 2024

REST-HANDS: Rehabilitation with Egocentric Vision Using Smartglasses for Treatment of Hands after Surviving Stroke

Wiktor Mucha

Kentaro Tanaka

M. Kampel

248

30 Sep 2024

Temporally Aligned Audio for Video with AutoregressionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

219

20 Sep 2024

High-Order Evolving Graphs for Enhanced Representation of Traffic Dynamics

358

17 Sep 2024

KOI: Accelerating Online Imitation Learning via Hybrid Key-state GuidanceConference on Robot Learning (CoRL), 2024

Dong Wang

Di Hu

Xuelong Li

205

06 Aug 2024

Is 3D Convolution with 5D Tensors Really Necessary for Video Analysis?

Habib Hajimolahoseini

Walid Ahmed

Austin Wen

Yang Liu

238

23 Jul 2024