v1v2 (latest)

Long-Term Feature Banks for Detailed Video Understanding

12 December 2018

Chao-Yuan Wu

Christoph Feichtenhofer

Papers citing "Long-Term Feature Banks for Detailed Video Understanding"

50 / 315 papers shown

VidTr: Video Transformer Without ConvolutionsIEEE International Conference on Computer Vision (ICCV), 2021

Hao Chen

418

217

23 Apr 2021

Multiscale Vision TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Christoph Feichtenhofer

ViT

481

1,513

22 Apr 2021

H2O: Two Hands Manipulating Objects for First Person Interaction RecognitionIEEE International Conference on Computer Vision (ICCV), 2021

Marc Pollefeys

375

234

22 Apr 2021

Temporal Query Networks for Fine-grained Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

Chuhan Zhang

Ankush Gupta

Andrew Zisserman

254

19 Apr 2021

Spatiotemporal Deformable Scene Graphs for Complex Activity DetectionBritish Machine Vision Conference (BMVC), 2021

Salman Khan

Fabio Cuzzolin

3DPC

238

16 Apr 2021

Beyond Short Clips: End-to-End Video-Level Learning with Collaborative MemoriesComputer Vision and Pattern Recognition (CVPR), 2021

Heng Wang

183

02 Apr 2021

Visual Semantic Role Labeling for Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2021

290

02 Apr 2021

TubeR: Tubelet Transformer for Video Action DetectionComputer Vision and Pattern Recognition (CVPR), 2021

Hao Chen

...

344

02 Apr 2021

Motion Guided Attention Fusion to Recognize Interactions from VideosIEEE International Conference on Computer Vision (ICCV), 2021

Tae Soo Kim

Jonathan D. Jones

Gregory Hager

103

01 Apr 2021

Learning Representational Invariances for Data-Efficient Action RecognitionComputer Vision and Image Understanding (CVIU), 2021

312

30 Mar 2021

Temporal Memory Relation Network for Workflow Recognition from Surgical VideoIEEE Transactions on Medical Imaging (IEEE TMI), 2021

Pheng-Ann Heng

244

117

30 Mar 2021

Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation

Hao Li

217

30 Mar 2021

ViViT: A Video Vision TransformerIEEE International Conference on Computer Vision (ICCV), 2021

545

2,702

29 Mar 2021

Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval

138

29 Mar 2021

Unified Graph Structured Models for Video UnderstandingIEEE International Conference on Computer Vision (ICCV), 2021

Anurag Arnab

Chen Sun

Cordelia Schmid

230

29 Mar 2021

Regular Polytope NetworksIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

191

29 Mar 2021

On the hidden treasure of dialog in video question answeringIEEE International Conference on Computer Vision (ICCV), 2021

229

26 Mar 2021

Temporal Context Aggregation Network for Temporal Action Proposal RefinementComputer Vision and Pattern Recognition (CVPR), 2021

Haisheng Su

Yu Qiao

192

205

24 Mar 2021

Context-aware Biaffine Localizing Network for Temporal Sentence GroundingComputer Vision and Pattern Recognition (CVPR), 2021

201

173

22 Mar 2021

PGT: A Progressive Method for Training Models on Long VideosComputer Vision and Pattern Recognition (CVPR), 2021

128

21 Mar 2021

Enhancing Transformer for Video Understanding Using Gated Multi-Level Attention and Temporal Adversarial Training

Saurabh Sahu

Palash Goyal

ViT

125

18 Mar 2021

ROAD: The ROad event Awareness Dataset for Autonomous DrivingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Reza Javanmard Alitappeh

...

Salman Khan

226

108

23 Feb 2021

Learning to Recognize Actions on Objects in Egocentric Video with Attention DictionariesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Swathikiran Sudhakaran

Sergio Escalera

Oswald Lanz

EgoV

209

16 Feb 2021

Win-Fail Action Recognition

Paritosh Parmar

B. Morris

158

15 Feb 2021

Is Space-Time Attention All You Need for Video Understanding?International Conference on Machine Learning (ICML), 2021

Gedas Bertasius

Heng Wang

Lorenzo Torresani

ViT

1.1K

2,648

09 Feb 2021

Video Transformer Network

783

475

01 Feb 2021

Discovering Multi-Label Actor-Action Association in a Weakly Supervised SettingAsian Conference on Computer Vision (ACCV), 2021

Sovan Biswas

Juergen Gall

166

21 Jan 2021

Smoothed Gaussian Mixture Models for Video Classification and Recommendation

110

17 Dec 2020

NUTA: Non-uniform Temporal Aggregation for Action RecognitionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

Hao Chen

120

15 Dec 2020

A Comprehensive Study of Deep Video Action Recognition

Yi Zhu

Xinyu Li

Chunhui Liu

Mohammadreza Zolfaghari

283

210

11 Dec 2020

CompFeat: Comprehensive Feature Aggregation for Video Instance SegmentationAAAI Conference on Artificial Intelligence (AAAI), 2020

Linjie Yang

Thomas S. Huang

284

07 Dec 2020

SAFCAR: Structured Attention Fusion for Compositional Action Recognition

Tae Soo Kim

Gregory Hager

CoGe

174

03 Dec 2020

Recent Progress in Appearance-based Action Recognition

J. Humphreys

Zhe Chen

Dacheng Tao

170

25 Nov 2020

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

Humam Alwassel

Silvio Giancola

Guohao Li

239

143

23 Nov 2020

Memory Optimization for Deep NetworksInternational Conference on Learning Representations (ICLR), 2020

157

27 Oct 2020

Hierarchical Conditional Relation Networks for Multimodal Video Question AnsweringInternational Journal of Computer Vision (IJCV), 2020

356

18 Oct 2020

Pose And Joint-Aware Action Recognition

328

16 Oct 2020

Deep Sequence Learning for Video Anticipation: From Discrete and Deterministic to Continuous and Stochastic

S. Aliakbarian

AI4TS

128

09 Oct 2020

Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video Processing

151

30 Sep 2020

Texture Memory-Augmented Deep Patch-Based Image Inpainting

245

28 Sep 2020

Multi-Label Activity Recognition using Activity-specific Features and Activity CorrelationsComputer Vision and Pattern Recognition (CVPR), 2020

157

16 Sep 2020

Online Spatiotemporal Action Detection and Prediction via Causal Representations

Gurkirt Singh

3DPC CML

181

31 Aug 2020

A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion Compensation for Action Recognition in the EPIC-Kitchens Dataset

Alejandro López-Cifuentes

Marcos Escudero-Viñolo

Jesús Bescós

EgoV

112

26 Aug 2020

Query Twice: Dual Mixture Attention Meta Learning for Video Summarization

208

19 Aug 2020

AssembleNet++: Assembling Modality Representations via Attention Connections

169

18 Aug 2020

Land Cover Classification from Remote Sensing Images Based on Multi-Scale Fully Convolutional NetworkGeo-Spatial Information Science (GSIS), 2020

325

121

01 Aug 2020

LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task ActivitiesEuropean Conference on Computer Vision (ECCV), 2020

Baoxiong Jia

146

31 Jul 2020

Directional Temporal Modeling for Action Recognition

Xinyu Li

Bing Shuai

Joseph Tighe

123

21 Jul 2020

Context-Aware RCNN: A Baseline for Action Detection in VideosEuropean Conference on Computer Vision (ECCV), 2020

Gangshan Wu

228

20 Jul 2020

Knowledge-Based Video Question Answering with Unsupervised Scene DescriptionsEuropean Conference on Computer Vision (ECCV), 2020

Noa Garcia

Yuta Nakashima

250

17 Jul 2020