v1v2 (latest)

Adaptive Focus for Efficient Video Recognition

IEEE International Conference on Computer Vision (ICCV), 2021

7 May 2021

Yulin Wang

Gao Huang

ArXiv (abs)PDF HTML Github (124★)

Papers citing "Adaptive Focus for Efficient Video Recognition"

50 / 71 papers shown

Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

125

02 Nov 2025

Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal ModelingComputer Vision and Image Understanding (CVIU), 2025

121

14 Oct 2025

A Survey on Efficiency Optimization Techniques for DNN-based Video Analytics: Process Systems, Algorithms, and Applications

157

21 Jul 2025

Flash-VStream: Efficient Real-Time Understanding for Long Video Streams

265

30 Jun 2025

Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics

179

28 May 2025

Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition

221

28 Feb 2025

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image GenerationComputer Vision and Pattern Recognition (CVPR), 2025

...

406

25 Feb 2025

Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

286

15 Dec 2024

ENAT: Rethinking Spatial-temporal Interactions in Token-based Image SynthesisNeural Information Processing Systems (NeurIPS), 2024

269

11 Nov 2024

Dynamic Diffusion TransformerInternational Conference on Learning Representations (ICLR), 2024

Kai Wang

Gao Huang

Fan Wang

Yang You

329

04 Oct 2024

AdaNAT: Exploring Adaptive Policy for Token-Based Image GenerationEuropean Conference on Computer Vision (ECCV), 2024

Yulin Wang

Jiayi Guo

Zhiyuan Liu

Yuan Yao

Gao Huang

349

31 Aug 2024

UltraSeP: Sequence-aware Pre-training for Echocardiography Probe Movement GuidancePattern Recognition (Pattern Recogn.), 2024

...

241

27 Aug 2024

Efficient Diffusion Transformer with Step-wise Dynamic Attention MediatorsEuropean Conference on Computer Vision (ECCV), 2024

...

Shiji Song

Gao Huang

Xiu Li

331

11 Aug 2024

Fine-grained Dynamic Network for Generic Event Boundary Detection

195

05 Jul 2024

DyFADet: Dynamic Feature Aggregation for Temporal Action Detection

Shiji Song

Gao Huang

Fan Li

296

03 Jul 2024

Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train

Shiji Song

Gao Huang

255

28 Jun 2024

Rule Based Learning with Dynamic (Graph) Neural Networks

Florian Seiffarth

224

14 Jun 2024

No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

223

14 May 2024

Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models

Jie Zhou

239

19 Mar 2024

Dynamic Tuning Towards Parameter and Inference Efficiency for ViT AdaptationNeural Information Processing Systems (NeurIPS), 2024

Gao Huang

Yang You

320

18 Mar 2024

GRA: Detecting Oriented Objects through Group-wise Rotating and Attention

Jiayi Guo

Gao Huang

311

17 Mar 2024

2023 Low-Power Computer Vision Challenge (LPCVC) Summary

...

George K. Thiruvathukal

Yu Lu

148

11 Mar 2024

HaltingVT: Adaptive Token Halting Transformer for Efficient Video RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

227

10 Jan 2024

Text-Conditioned Resampler For Long Form Video Understanding

305

19 Dec 2023

GSVA: Generalized Segmentation via Multimodal Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Gao Huang

596

125

15 Dec 2023

Rank-DETR for High Quality Object DetectionNeural Information Processing Systems (NeurIPS), 2023

Gao Huang

378

13 Oct 2023

Training a Large Video Model on a Single Machine in a Day

Yue Zhao

Philipp Krahenbuhl

VLM

273

28 Sep 2023

Differentiable Resolution Compression and Alignment for Efficient Video Classification and RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

212

15 Sep 2023

Fine-grained Recognition with Learnable Semantic Data AugmentationIEEE Transactions on Image Processing (IEEE TIP), 2023

Yulin Wang

Gao Huang

276

01 Sep 2023

Computation-efficient Deep Learning for Computer Vision: A Survey

Yulin Wang

Gao Huang

303

27 Aug 2023

Audio-Visual Glance Network for Efficient Video RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

154

18 Aug 2023

AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language RecognitionACM Multimedia (ACM MM), 2023

Chi-Man Pun

255

16 Aug 2023

View while Moving: Efficient Video Recognition in Long-untrimmed VideosACM Multimedia (ACM MM), 2023

Lanshan Zhang

Yang Liu

261

09 Aug 2023

Prune Spatio-temporal Tokens by Semantic-aware Temporal AccumulationIEEE International Conference on Computer Vision (ICCV), 2023

206

08 Aug 2023

How can objects help action recognition?Computer Vision and Pattern Recognition (CVPR), 2023

226

20 Jun 2023

Dynamic Perceiver for Efficient Visual RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Yulin Wang

Gao Huang

295

20 Jun 2023

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

224

10 May 2023

Efficient Video Action Detection with Token Dropout and Context RefinementIEEE International Conference on Computer Vision (ICCV), 2023

Lei Chen

Zhan Tong

Yibing Song

Gangshan Wu

Limin Wang

305

17 Apr 2023

Frame Flexible NetworkComputer Vision and Pattern Recognition (CVPR), 2023

Huan Wang

197

26 Mar 2023

Adaptive Rotated Convolution for Rotated Object DetectionIEEE International Conference on Computer Vision (ICCV), 2023

Yulin Wang

Gao Huang

209

127

14 Mar 2023

EgoDistill: Egocentric Head Motion Distillation for Efficient Video UnderstandingNeural Information Processing Systems (NeurIPS), 2023

Shuhan Tan

Tushar Nagarajan

Kristen Grauman

243

05 Jan 2023

Cross Modal Transformer: Towards Fast and Robust 3D Object DetectionIEEE International Conference on Computer Vision (ICCV), 2023

Xiangyu Zhang

308

110

03 Jan 2023

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Jingdong Wang

Wanli Ouyang

390

31 Dec 2022

Deep Incubation: Training Large Models by Divide-and-ConqueringIEEE International Conference on Computer Vision (ICCV), 2022

Yulin Wang

Gao Huang

239

08 Dec 2022

Look More but Care Less in Video RecognitionNeural Information Processing Systems (NeurIPS), 2022

216

18 Nov 2022

EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual BackbonesIEEE International Conference on Computer Vision (ICCV), 2022

Yulin Wang

Rui Lu

Gao Huang

307

17 Nov 2022

Cross-Modal Adapter for Vision-Language RetrievalPattern Recognition (Pattern Recogn.), 2022

360

17 Nov 2022

Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task

278

09 Nov 2022

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action PredictionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Samrudhdhi B. Rangrej

Kevin J. Liang

Tal Hassner

James J. Clark

268

24 Oct 2022

AdaFocusV3: On Unified Spatial-temporal Dynamic Video RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Yulin Wang

Gao Huang

228

27 Sep 2022