v1v2 (latest)

VideoBERT: A Joint Model for Video and Language Representation Learning

3 April 2019

Carl Vondrick

Papers citing "VideoBERT: A Joint Model for Video and Language Representation Learning"

50 / 803 papers shown

DIET: Lightweight Language Understanding for Dialogue Systems

340

174

21 Apr 2020

lamBERT: Language and Action Learning Using Multimodal BERT

168

15 Apr 2020

Coreferential Reasoning Learning for Language RepresentationConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Deming Ye

Yankai Lin

Jiaju Du

Zhenghao Liu

Peng Li

Maosong Sun

Zhiyuan Liu

235

184

15 Apr 2020

Oscar: Object-Semantics Aligned Pre-training for Vision-Language TasksEuropean Conference on Computer Vision (ECCV), 2020

Xiaowei Hu

...

Yejin Choi

727

2,133

13 Apr 2020

Context-Aware Group Captioning via Self-Attention and Contrastive FeaturesComputer Vision and Pattern Recognition (CVPR), 2020

168

07 Apr 2020

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

382

469

02 Apr 2020

Caption Generation of Robot Behaviors based on Unsupervised Learning of Action SegmentsInternational Workshop on Spoken Dialogue Systems Technology (SDST), 2020

116

23 Mar 2020

Comprehensive Instructional Video Analysis: The COIN Dataset and Performance EvaluationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2020

Yansong Tang

Jiwen Lu

Jie Zhou

175

20 Mar 2020

Pre-trained Models for Natural Language Processing: A SurveyScience China Technological Sciences (Sci China Technol Sci), 2020

Xipeng Qiu

Tianxiang Sun

Xuanjing Huang

1.1K

1,616

18 Mar 2020

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2020

Yezhou Yang

291

11 Mar 2020

On Compositions of Transformations in Contrastive Self-Supervised LearningIEEE International Conference on Computer Vision (ICCV), 2020

João F. Henriques

Andrea Vedaldi

230

09 Mar 2020

Cross-modal Learning for Multi-modal Video Categorization

256

07 Mar 2020

Noise Estimation Using Density Estimation for Self-Supervised Multimodal LearningAAAI Conference on Artificial Intelligence (AAAI), 2020

324

130

06 Mar 2020

XGPT: Cross-modal Generative Pre-Training for Image CaptioningNatural Language Processing and Chinese Computing (NLPCC), 2020

Zhifang Sui

238

03 Mar 2020

Visual Commonsense R-CNNComputer Vision and Pattern Recognition (CVPR), 2020

268

278

27 Feb 2020

What BERT Sees: Cross-Modal Transfer for Visual Question Generation

246

25 Feb 2020

Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2020

Weituo Hao

Lawrence Carin

305

325

25 Feb 2020

CodeBERT: A Pre-Trained Model for Programming and Natural LanguagesFindings (Findings), 2020

...

1.2K

3,355

19 Feb 2020

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Tianrui Li

365

418

15 Feb 2020

Vocoder-free End-to-End Voice Conversion with Transformer NetworkIEEE International Joint Conference on Neural Network (IJCNN), 2020

June-Woo Kim

H. Jung

Minho Lee

05 Feb 2020

Bridging Text and Video: A Universal Multimodal Transformer for Video-Audio Scene-Aware Dialog

Jie Zhou

235

01 Feb 2020

Learning Spatiotemporal Features via Video and Text Pair Discrimination

Tianhao Li

Limin Wang

VGen

141

16 Jan 2020

Meshed-Memory Transformer for Image CaptioningComputer Vision and Pattern Recognition (CVPR), 2019

Marcella Cornia

Matteo Stefanini

Lorenzo Baraldi

Rita Cucchiara

254

1,025

17 Dec 2019

End-to-End Learning of Visual Representations from Uncurated Instructional VideosComputer Vision and Pattern Recognition (CVPR), 2019

Antoine Miech

Jean-Baptiste Alayrac

599

754

13 Dec 2019

Listen to Look: Action Recognition by Previewing AudioComputer Vision and Pattern Recognition (CVPR), 2019

307

282

10 Dec 2019

Context R-CNN: Long Term Temporal Context for Per-Camera Object DetectionComputer Vision and Pattern Recognition (CVPR), 2019

269

126

07 Dec 2019

Personalized Patent Claim Generation and Measurement

Jieh-Sheng Lee

182

07 Dec 2019

Self-Supervised Learning of Video-Induced Visual InvariancesComputer Vision and Pattern Recognition (CVPR), 2019

345

05 Dec 2019

Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art BaselineEuropean Conference on Computer Vision (ECCV), 2019

Devi Parikh

343

120

05 Dec 2019

BERT for Large-scale Video Segment Classification with Test-time Augmentation

Tianqi Liu

Qizhan Shao

123

02 Dec 2019

Learning to Learn Words from Visual Scenes

Heng Ji

Carl Vondrick

186

25 Nov 2019

Neural Storyboard Artist: Visualizing Stories with Coherent Image SequencesACM Multimedia (ACM MM), 2019

Qin Jin

171

24 Nov 2019

Multimodal Intelligence: Representation Learning, Information Fusion, and ApplicationsIEEE Journal on Selected Topics in Signal Processing (JSTSP), 2019

Chao Zhang

Zichao Yang

Xiaodong He

Li Deng

HAI AI4TS

319

401

10 Nov 2019

Probing Contextualized Sentence Representations with Visual Awareness

Rui Wang

228

07 Nov 2019

A Case Study on Combining ASR and Visual Features for Generating Instructional Video CaptionsConference on Computational Natural Language Learning (CoNLL), 2019

169

07 Oct 2019

LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment RetrievalIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2019

300

27 Sep 2019

UNITER: UNiversal Image-TExt Representation LearningEuropean Conference on Computer Vision (ECCV), 2019

345

464

25 Sep 2019

Unified Vision-Language Pre-Training for Image Captioning and VQAAAAI Conference on Artificial Intelligence (AAAI), 2019

Lei Zhang

692

1,008

24 Sep 2019

Zero-Shot Action Recognition in Videos: A Survey

Valter Estevam

Hélio Pedrini

David Menotti

285

13 Sep 2019

Supervised Multimodal Bitransformers for Classifying Images and Text

Douwe Kiela

323

295

06 Sep 2019

A Semantics-Assisted Video Captioning Model Trained with Scheduled SamplingFrontiers in Robotics and AI (Front. Robot. AI), 2019

155

31 Aug 2019

VL-BERT: Pre-training of Generic Visual-Linguistic RepresentationsInternational Conference on Learning Representations (ICLR), 2019

Weijie Su

628

1,795

22 Aug 2019

LXMERT: Learning Cross-Modality Encoder Representations from TransformersConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

Hao Hao Tan

Joey Tianyi Zhou

VLM MLLM

745

2,755

20 Aug 2019

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2019

730

945

16 Aug 2019

Fusion of Detected Objects in Text for Visual Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2019

251

181

14 Aug 2019

VisualBERT: A Simple and Performant Baseline for Vision and Language

578

2,202

09 Aug 2019

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language TasksNeural Information Processing Systems (NeurIPS), 2019

Devi Parikh

908

4,199

06 Aug 2019

Use What You Have: Video Retrieval Using Representations From Collaborative ExpertsBritish Machine Vision Conference (BMVC), 2019

Yang Liu

Samuel Albanie

Arsha Nagrani

Andrew Zisserman

283

424

31 Jul 2019

Finding Moments in Video Collections Using Natural Language

182

30 Jul 2019

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and MethodsJournal of Artificial Intelligence Research (JAIR), 2019

404

142

22 Jul 2019