From Show to Tell: A Survey on Deep Learning-based Image Captioning

From Show to Tell: A Survey on Deep Learning-based Image Captioning

14 July 2021

Matteo Stefanini

Marcella Cornia

Lorenzo Baraldi

Papers citing "From Show to Tell: A Survey on Deep Learning-based Image Captioning"

15 / 115 papers shown

Title
Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation Zechen Bai Yuta Nakashima Noa Garcia 43 42 0 13 Sep 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 174 342 0 13 Jul 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 181 307 0 02 Mar 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 3,790 0 24 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 845 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 291 2,875 0 11 Feb 2021
Fast Sequence Generation with Multi-Agent Reinforcement Learning Longteng Guo Jing Liu Xinxin Zhu Hanqing Lu LRM 47 6 0 24 Jan 2021
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network Jiayi Ji Yunpeng Luo Xiaoshuai Sun Fuhai Chen Gen Luo Yongjian Wu Yue Gao Rongrong Ji ViT 35 163 0 13 Dec 2020
Comprehensive Image Captioning via Scene Graph Decomposition Yiwu Zhong Liwei Wang Jianshu Chen Dong Yu Yin Li 76 123 0 23 Jul 2020
Normalized and Geometry-Aware Self-Attention Network for Image Captioning Longteng Guo Jing Liu Xinxin Zhu Peng Yao Shichen Lu Hanqing Lu ViT 103 164 0 19 Mar 2020
Show, Edit and Tell: A Framework for Editing Image Captions Fawaz Sammani Luke Melas-Kyriazi KELM DiffM 21 59 0 06 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 186 412 0 27 Mar 2018
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 78 443 0 06 Dec 2016
Learning Deep Representations of Fine-grained Visual Descriptions Scott E. Reed Zeynep Akata Bernt Schiele Honglak Lee OCL VLM 155 804 0 17 May 2016