v1v2 (latest)

ViViT: A Video Vision Transformer

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3544★)

Papers citing "ViViT: A Video Vision Transformer"

50 / 1,309 papers shown

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

Fan Yang

282

169

09 Sep 2021

Revisiting 3D ResNets for Video Recognition

Xianzhi Du

239

03 Sep 2021

Shifted Chunk Transformer for Spatio-Temporal Representational LearningNeural Information Processing Systems (NeurIPS), 2021

289

26 Aug 2021

StarVQA: Space-Time Attention for Video Quality AssessmentInternational Conference on Information Photonics (ICIP), 2021

22 Aug 2021

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition

Jiawei Chen

C. Ho

ViT

258

100

20 Aug 2021

RaftMLP: How Much Can Be Done Without Attention and with Less Spatial Locality?Asian Conference on Computer Vision (ACCV), 2021

Yuki Tatsunami

Masato Taki

186

09 Aug 2021

EAN: Event Adaptive Network for Enhanced Action RecognitionInternational Journal of Computer Vision (IJCV), 2021

Guangtao Zhai

171

22 Jul 2021

CycleMLP: A MLP-like Architecture for Dense PredictionInternational Conference on Learning Representations (ICLR), 2021

354

251

21 Jul 2021

Is attention to bounding boxes all you need for pedestrian action prediction?

229

16 Jul 2021

ViTGAN: Training GANs with Vision TransformersInternational Conference on Learning Representations (ICLR), 2021

321

220

09 Jul 2021

Long Short-Term Transformer for Online Action DetectionNeural Information Processing Systems (NeurIPS), 2021

Hao Chen

288

170

07 Jul 2021

VideoLightFormer: Lightweight Action Recognition using Transformers

Raivo Koot

Haiping Lu

ViT

232

01 Jul 2021

Attention Bottlenecks for Multimodal FusionNeural Information Processing Systems (NeurIPS), 2021

576

690

30 Jun 2021

Can An Image Classifier Suffice For Action Recognition?International Conference on Learning Representations (ICLR), 2021

280

26 Jun 2021

Video Swin Transformer

429

1,859

24 Jun 2021

Exploring Stronger Feature for Temporal Action Localization

128

24 Jun 2021

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?

589

154

21 Jun 2021

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning

203

21 Jun 2021

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

Han Fang

315

343

21 Jun 2021

Weakly-Supervised Temporal Action Localization Through Local-Global Background Modeling

234

20 Jun 2021

Proposal Relation Network for Temporal Action Detection

117

20 Jun 2021

XCiT: Cross-Covariance Image TransformersNeural Information Processing Systems (NeurIPS), 2021

...

Natalia Neverova

395

610

17 Jun 2021

Long-Short Temporal Contrastive Learning of Video Transformers

Gedas Bertasius

283

17 Jun 2021

Relation Modeling in Spatio-Temporal Action Localization

178

15 Jun 2021

A Stronger Baseline for Ego-Centric Action Detection

145

13 Jun 2021

Space-time Mixing Attention for Video TransformerNeural Information Processing Systems (NeurIPS), 2021

Adrian Bulat

Juan-Manuel Perez-Rua

Swathikiran Sudhakaran

Brais Martínez

Georgios Tzimiropoulos

ViT

287

141

10 Jun 2021

Scaling Vision with Sparse Mixture of ExpertsNeural Information Processing Systems (NeurIPS), 2021

309

834

10 Jun 2021

Keeping Your Eye on the Ball: Trajectory Attention in Video TransformersNeural Information Processing Systems (NeurIPS), 2021

Ishan Misra Florian Metze

Christoph Feichtenhofer

Andrea Vedaldi

João F. Henriques

279

339

09 Jun 2021

Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition

126

09 Jun 2021

A Survey of TransformersAI Open (AO), 2021

Tianyang Lin

Yuxin Wang

Xiangyang Liu

Xipeng Qiu

ViT

441

1,380

08 Jun 2021

SIMONe: View-Invariant, Temporally-Abstracted Object Representations via Unsupervised Video DecompositionNeural Information Processing Systems (NeurIPS), 2021

Christopher P. Burgess

OCL

296

07 Jun 2021

On the Expressive Power of Self-Attention Matrices

Valerii Likhosherstov

K. Choromanski

Adrian Weller

344

07 Jun 2021

Video Instance Segmentation using Inter-Frame Communication TransformersNeural Information Processing Systems (NeurIPS), 2021

245

158

07 Jun 2021

Transformed ROIs for Capturing Visual Transformations in VideosComputer Vision and Image Understanding (CVIU), 2021

Abhinav Rai

Fadime Sener

Angela Yao

ViT

221

06 Jun 2021

CAPE: Encoding Relative Positions with Continuous Augmented Positional EmbeddingsNeural Information Processing Systems (NeurIPS), 2021

326

06 Jun 2021

Signal Transformer: Complex-valued Attention and Meta-Learning for Signal RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021

399

05 Jun 2021

Anticipative Video TransformerIEEE International Conference on Computer Vision (ICCV), 2021

Rohit Girdhar

Kristen Grauman

ViT

328

249

03 Jun 2021

When Vision Transformers Outperform ResNets without Pre-training or Strong Data AugmentationsInternational Conference on Learning Representations (ICLR), 2021

367

373

03 Jun 2021

Continual 3D Convolutional Neural Networks for Real-time Processing of VideosEuropean Conference on Computer Vision (ECCV), 2021

Lukas Hedegaard

Alexandros Iosifidis

3DPC

322

31 May 2021

Gaze Estimation using TransformerInternational Conference on Pattern Recognition (ICPR), 2021

Yihua Cheng

Feng Lu

ViT

213

131

30 May 2021

FineAction: A Fine-Grained Video Dataset for Temporal Action LocalizationIEEE Transactions on Image Processing (TIP), 2021

Yu Qiao

272

24 May 2021

Segmenter: Transformer for Semantic SegmentationIEEE International Conference on Computer Vision (ICCV), 2021

721

1,771

12 May 2021

A Fast Partial Video Copy Detection Using KNN and Global Feature DatabaseIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

Weijun Tan

Hongwei Guo

Rushuai Liu

250

04 May 2021

Vision Transformers with Patch Diversification

253

26 Apr 2021

VidTr: Video Transformer Without ConvolutionsIEEE International Conference on Computer Vision (ICCV), 2021

Hao Chen

415

215

23 Apr 2021

Multiscale Vision TransformersIEEE International Conference on Computer Vision (ICCV), 2021

Christoph Feichtenhofer

ViT

481

1,503

22 Apr 2021

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and TextNeural Information Processing Systems (NeurIPS), 2021

720

677

22 Apr 2021

Writing in The Air: Unconstrained Text Recognition from Finger Movement Using Spatio-Temporal ConvolutionIEEE Transactions on Artificial Intelligence (IEEE TAI), 2021

150

19 Apr 2021

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Tianrui Li

1.4K

1,001

18 Apr 2021

Higher Order Recurrent Space-Time Transformer for Video Action Prediction

180

17 Apr 2021