v1v2 (latest)

VideoBERT: A Joint Model for Video and Language Representation Learning

3 April 2019

Carl Vondrick

Papers citing "VideoBERT: A Joint Model for Video and Language Representation Learning"

50 / 803 papers shown

Dynamic Neural Networks: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

Gao Huang

Yulin Wang

425

802

09 Feb 2021

Unifying Vision-and-Language Tasks via Text GenerationInternational Conference on Machine Learning (ICML), 2021

598

609

04 Feb 2021

Environment Predictive Coding for Embodied Agents

Santhosh Kumar Ramakrishnan

Tushar Nagarajan

Ziad Al-Halah

Kristen Grauman

195

03 Feb 2021

Decoupling the Role of Data, Attention, and Losses in Multimodal TransformersTransactions of the Association for Computational Linguistics (TACL), 2021

Lisa Anne Hendricks

John F. J. Mellor

R. Schneider

Jean-Baptiste Alayrac

Aida Nematzadeh

234

126

31 Jan 2021

VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal InputsComputer Vision and Pattern Recognition (CVPR), 2021

Gedas Bertasius

Devi Parikh

248

28 Jan 2021

Bottleneck Transformers for Visual RecognitionComputer Vision and Pattern Recognition (CVPR), 2021

Pieter Abbeel

681

1,124

27 Jan 2021

AI Choreographer: Music Conditioned 3D Dance Generation with AIST++IEEE International Conference on Computer Vision (ICCV), 2021

Ruilong Li

739

637

21 Jan 2021

Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge

213

15 Jan 2021

Learning Temporal Dynamics from Cycles in Narrated VideoIEEE International Conference on Computer Vision (ICCV), 2021

Jiajun Wu

252

07 Jan 2021

Transformers in Vision: A SurveyACM Computing Surveys (CSUR), 2021

Salman Khan

923

3,152

04 Jan 2021

Accurate Word Representations with Universal Visual Guidance

182

30 Dec 2020

LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2020

...

Min Zhang

840

610

29 Dec 2020

Training data-efficient image transformers & distillation through attentionInternational Conference on Machine Learning (ICML), 2020

Alexandre Sablayrolles

Edouard Grave

ViT

647

8,277

23 Dec 2020

A Survey on Visual TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

...

1.0K

3,095

23 Dec 2020

Human Action Recognition from Various Data Modalities: A ReviewIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Zehua Sun

Jun Liu

582

699

22 Dec 2020

A Closer Look at the Robustness of Vision-and-Language Pre-trained Models

263

15 Dec 2020

Attention over learned object embeddings enables complex visual reasoningNeural Information Processing Systems (NeurIPS), 2020

366

15 Dec 2020

KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual Commonsense ReasoningKnowledge-Based Systems (KBS), 2020

Dandan Song

256

13 Dec 2020

A Comprehensive Study of Deep Video Action Recognition

Yi Zhu

Xinyu Li

Chunhui Liu

Mohammadreza Zolfaghari

283

210

11 Dec 2020

Look Before you Speak: Visually Contextualized UtterancesComputer Vision and Pattern Recognition (CVPR), 2020

Paul Hongsuck Seo

Arsha Nagrani

Cordelia Schmid

311

10 Dec 2020

Hateful Memes Detection via Complementary Visual and Linguistic Networks

104

09 Dec 2020

Parameter Efficient Multimodal Transformers for Video Representation Learning

272

08 Dec 2020

Deep Learning and the Global Workspace TheoryTrends in Neurosciences (TINS), 2020

R. V. Rullen

Ryota Kanai

202

04 Dec 2020

Classification of Multimodal Hate Speech -- The Winning Solution of Hateful Memes Challenge

Xiayu Zhong

149

02 Dec 2020

Pose-based Sign Language Recognition using GCN and BERT

Anirudh Tunga

Sai Vidyaranya Nuthalapati

J. Wachs

SLR

200

01 Dec 2020

Task Programming: Learning Data Efficient Behavior RepresentationsComputer Vision and Pattern Recognition (CVPR), 2020

266

27 Nov 2020

A Recurrent Vision-and-Language BERT for NavigationComputer Vision and Pattern Recognition (CVPR), 2020

Yicong Hong

Qi Wu

Yuankai Qi

Cristian Rodriguez-Opazo

Stephen Gould

LM&Ro

326

382

26 Nov 2020

Multimodal Learning for Hateful Memes Detection

Yi Zhou

Zhenhao Chen

307

25 Nov 2020

Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language

Jianwei Yang

205

18 Nov 2020

A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus

Joonseok Lee

203

18 Nov 2020

Data-efficient Alignment of Multimodal Sequences by Aligning Gradient Updates and Internal Feature DistributionsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2020

146

15 Nov 2020

ActBERT: Learning Global-Local Video-Text RepresentationsComputer Vision and Pattern Recognition (CVPR), 2020

Linchao Zhu

Yi Yang

ViT

324

451

14 Nov 2020

Multimodal Pretraining for Dense Video Captioning

181

101

10 Nov 2020

Tabular Transformers for Modeling Multivariate Time Series

287

114

03 Nov 2020

COOT: Cooperative Hierarchical Transformer for Video-Text Representation LearningNeural Information Processing Systems (NeurIPS), 2020

Simon Ging

Mohammadreza Zolfaghari

Hamed Pirsiavash

Thomas Brox

ViT CLIP

204

178

01 Nov 2020

Pretext-Contrastive Learning: Toward Good Practices in Self-supervised Video Representation Leaning

250

29 Oct 2020

A Visuospatial Dataset for Naturalistic Verb Learning

Dylan Ebert

Ellie Pavlick

113

28 Oct 2020

Co-attentional Transformers for Story-Based Video UnderstandingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020

Björn Bebensee

Byoung-Tak Zhang

136

27 Oct 2020

Multilingual Speech Translation with Efficient Finetuning of Pretrained Models

Michael Auli

281

24 Oct 2020

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy

...

1.4K

55,030

22 Oct 2020

A Framework for Generative and Contrastive Learning of Audio Representations

Prateek Verma

J. Smith

SSL

198

22 Oct 2020

Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

Roger Zimmermann

277

19 Oct 2020

Knowledge-Grounded Dialogue Generation with Pre-trained Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Rui Yan

410

201

17 Oct 2020

Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question AnsweringInternational Conference on Pattern Recognition (ICPR), 2020

133

17 Oct 2020

Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

137

16 Oct 2020

Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs

Yejin Choi

232

15 Oct 2020

CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations

Fuli Luo

Pengcheng Yang

Shicheng Li

Xuancheng Ren

Xu Sun

VLM SSL

212

13 Oct 2020

ALFWorld: Aligning Text and Embodied Environments for Interactive Learning

Matthew J. Hausknecht

LM&Ro LLMAG

415

640

08 Oct 2020

Global Self-Attention Networks for Image Recognition

174

06 Oct 2020

Support-set bottlenecks for video-text representation learning

Mandela Patrick

Po-Yao (Bernie) Huang

Yuki M. Asano

Florian Metze

Alexander G. Hauptmann

João Henriques

Andrea Vedaldi

342

260

06 Oct 2020