Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

6 December 2016

Devi Parikh

Papers citing "Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning"

25 / 25 papers shown

Title
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation Amaan Izhar Nurul Japar Norisma Idris Ting Dang MoE 61 0 0 29 Apr 2025
A Large Vision-Language Model based Environment Perception System for Visually Impaired People Zezhou Chen Zhaoxiang Liu Kai Wang Kohou Wang Shiguo Lian 44 0 0 25 Apr 2025
An Ensemble Model with Attention Based Mechanism for Image Captioning Israa Al Badarneh Bassam Hammo Omar Al-Kadi 45 2 0 28 Jan 2025
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 12 15 0 23 Nov 2023
Reverse Stable Diffusion: What prompt was used to generate this image? Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah VLM DiffM 15 5 0 02 Aug 2023
DiffCap: Exploring Continuous Diffusion on Image Captioning Yufeng He Zefan Cai Xu Gan Baobao Chang DiffM 6 5 0 20 May 2023
Top-Down Visual Attention from Analysis by Synthesis Baifeng Shi Trevor Darrell Xin Eric Wang 10 28 0 23 Mar 2023
Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation Mingjie Li Wenjia Cai Karin Verspoor Shirui Pan Xiaodan Liang Xiaojun Chang MedIm 18 34 0 04 Jun 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 25 27 0 21 Feb 2022
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 16 190 0 29 Nov 2021
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention Katsuyuki Nakamura Hiroki Ohashi Mitsuhiro Okada EgoV 16 12 0 07 Sep 2021
Dual Graph Convolutional Networks with Transformer and Curriculum Learning for Image Captioning Xinzhi Dong Chengjiang Long Wenju Xu Chunxia Xiao ViT 67 66 0 05 Aug 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 51 244 0 14 Jul 2021
Adaptive Attentional Network for Few-Shot Knowledge Graph Completion Jiawei Sheng Shu Guo Zhenyu Chen Juwei Yue Lihong Wang Tingwen Liu Hongbo Xu 95 110 0 19 Oct 2020
Saccader: Improving Accuracy of Hard Attention Models for Vision Gamaleldin F. Elsayed Simon Kornblith Quoc V. Le VLM 17 69 0 20 Aug 2019
Attention on Attention for Image Captioning Lun Huang Wenmin Wang Jie Chen Xiao-Yong Wei 10 812 0 19 Aug 2019
ARGAN: Attentive Recurrent Generative Adversarial Network for Shadow Detection and Removal Bin Ding Chengjiang Long Ling Zhang Chunxia Xiao GAN 3DH 6 150 0 04 Aug 2019
Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations Fenglin Liu Yuanxin Liu Xuancheng Ren Xiaodong He Xu Sun VLM 16 81 0 15 May 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 10 117 0 11 Apr 2019
Describing like humans: on diversity in image captioning Qingzhong Wang Antoni B. Chan 6 97 0 28 Mar 2019
Boosted Attention: Leveraging Human Attention for Image Captioning Shi Chen Qi Zhao 10 47 0 18 Mar 2019
Sketch-R2CNN: An Attentive Network for Vector Sketch Recognition Lei Li C. Zou Youyi Zheng Qingkun Su Hongbo Fu Chiew-Lan Tai 3DPC 22 26 0 20 Nov 2018
Context-Aware Visual Policy Network for Sequence-Level Image Captioning Daqing Liu Zhengjun Zha Hanwang Zhang Yongdong Zhang Feng Wu CLIP 18 101 0 16 Aug 2018
Improving Image Captioning with Conditional Generative Adversarial Nets Chen Chen Shuai Mu Wanpeng Xiao Zexiong Ye Liesi Wu Qi Ju GAN 6 89 0 18 May 2018
Where to put the Image in an Image Caption Generator Marc Tanti Albert Gatt K. Camilleri 26 96 0 27 Mar 2017