v1v2v3v4v5 (latest)

VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning

Computer Vision and Pattern Recognition (CVPR), 2021

20 February 2021

ArXiv (abs)PDF HTML Github (331★)

Papers citing "VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning"

15 / 165 papers shown

Medical Image Captioning via Generative Pretrained TransformersScientific Reports (Sci Rep), 2022

192

28 Sep 2022

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open QuestionsACM Computing Surveys (ACM CSUR), 2022

Paul Pu Liang

Amir Zadeh

Louis-Philippe Morency

310

166

07 Sep 2022

Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud UnderstandingInternational Conference on 3D Vision (3DV), 2022

244

25 Aug 2022

Interpreting Song Lyrics with an Audio-Informed Pre-trained Language ModelInternational Society for Music Information Retrieval Conference (ISMIR), 2022

Yixiao Zhang

Junyan Jiang

Gus Xia

S. Dixon

124

24 Aug 2022

Personalized Showcases: Generating Multi-Modal Explanations for RecommendationsAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2022

252

30 Jun 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

476

277

16 Jun 2022

LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning TasksNeural Information Processing Systems (NeurIPS), 2022

Dimitris Papailiopoulos

Kangwook Lee

LMTD

559

167

14 Jun 2022

Visual Clues: Bridging Vision and Language Foundations for Image Paragraph CaptioningNeural Information Processing Systems (NeurIPS), 2022

Lu Yuan

186

03 Jun 2022

Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

Jun Chen

Ming Hu

Boyang Albert Li

Mohamed Elhoseiny

341

01 Jun 2022

Language Models Can See: Plugging Visual Controls in Text Generation

Lingpeng Kong

270

111

05 May 2022

Flamingo: a Visual Language Model for Few-Shot LearningNeural Information Processing Systems (NeurIPS), 2022

Jean-Baptiste Alayrac

...

695

4,861

29 Apr 2022

FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in ContextEuropean Conference on Computer Vision (ECCV), 2022

Pinaki Nath Chowdhury

326

04 Mar 2022

Pretrained Language Models for Text Generation: A SurveyACM Computing Surveys (ACM CSUR), 2022

519

257

14 Jan 2022

Multimodal Few-Shot Learning with Frozen Language ModelsNeural Information Processing Systems (NeurIPS), 2021

520

900

25 Jun 2021

Transflower: probabilistic autoregressive dance generation with multimodal attentionACM Transactions on Graphics (TOG), 2021

Guillermo Valle Pérez

371

25 Jun 2021