v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,580 papers shown

Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Hidetaka Kamigaito

Katsuhiko Hayashi

Taro Watanabe

VLM

177

03 Jun 2023

Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work

Qiangchang Wang

Yilong Yin

300

02 Jun 2023

"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image CaptioningAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Abisek Rajakumar Kalarani

222

01 Jun 2023

Cross-Domain Car Detection Model with Integrated Convolutional Block Attention MechanismImage and Vision Computing (IVC), 2023

259

31 May 2023

HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text

189

29 May 2023

GBG++: A Fast and Stable Granular Ball Generation Method for ClassificationIEEE Transactions on Emerging Topics in Computational Intelligence (TETCI), 2023

314

29 May 2023

FuseCap: Leveraging Large Language Models for Enriched Fused Image CaptionsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

391

28 May 2023

S4M: Generating Radiology Reports by A Single Model for Multiple Body PartsAsian Conference on Computer Vision (ACCV), 2023

Qi Wu

152

26 May 2023

HAAV: Hierarchical Aggregation of Augmented Views for Image CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

Chia-Wen Kuo

Z. Kira

197

25 May 2023

TOAST: Transfer Learning via Attention Steering

146

24 May 2023

Evolutionary Algorithms in the Light of SGD: Limit Equivalence, Minima Flatness, and Transfer Learning

Andrei Kucharavy

R. Guerraoui

Ljiljana Dolamic

228

20 May 2023

DiffCap: Exploring Continuous Diffusion on Image Captioning

Zefan Cai

205

20 May 2023

Explaining V1 Properties with a Biologically Constrained Deep Learning ArchitectureNeural Information Processing Systems (NeurIPS), 2023

151

18 May 2023

Emergent Communication with AttentionAnnual Meeting of the Cognitive Science Society (CogSci), 2023

Ryokan Ri

Ryo Ueda

Jason Naradowsky

160

18 May 2023

A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot

316

16 May 2023

PLIP: Language-Image Pre-training for Person Representation LearningNeural Information Processing Systems (NeurIPS), 2023

404

15 May 2023

Mask to reconstruct: Cooperative Semantics Completion for Video-text RetrievalACM Multimedia (ACM MM), 2023

Han Fang

Zhifei Yang

Xianghao Zang

Chao Ban

Hao Sun

VGen

240

13 May 2023

Automatic Radiology Report Generation by Learning with Increasingly Hard NegativesEuropean Conference on Artificial Intelligence (ECAI), 2023

Bhanu Prakash Voutharoja

Lei Wang

Luping Zhou

MedIm

147

11 May 2023

Learning the Visualness of Text Using Large Vision-Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Jiuxiang Gu

176

11 May 2023

Clothes-Invariant Feature Learning by Causal Intervention for Clothes-Changing Person Re-identification

Wanli Ouyang

196

10 May 2023

Vision-Language Models in Remote Sensing: Current Progress and Future TrendsIEEE Geoscience and Remote Sensing Magazine (GRSM), 2023

Xiao Xiang Zhu

352

159

09 May 2023

Image Captioners Sometimes Tell More Than Images They See

Honori Udo

Takafumi Koshinaka

VLM

134

04 May 2023

Incremental 3D Semantic Scene Graph Prediction from RGB SequencesComputer Vision and Pattern Recognition (CVPR), 2023

Nassir Navab

279

04 May 2023

Caption Anything: Interactive Image Description with Diverse Multimodal Controls

474

124

04 May 2023

Transforming Visual Scene Graphs to Image CaptionsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

357

03 May 2023

Fairness in AI Systems: Mitigating gender bias from language-vision models

Lavisha Aggarwal

Shruti Bhargava

130

03 May 2023

Multimodal Data Augmentation for Image Captioning using Diffusion Models

207

03 May 2023

Multimodal Graph Transformer for Multimodal Question AnsweringConference of the European Chapter of the Association for Computational Linguistics (EACL), 2023

Xuehai He

Xin Eric Wang

317

30 Apr 2023

Multi-Modality Deep Network for Extreme Learned Image CompressionAAAI Conference on Artificial Intelligence (AAAI), 2023

Weimin Tan

26 Apr 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

225

22 Apr 2023

Identifying Appropriate Intellectual Property Protection Mechanisms for Machine Learning Models: A Systematization of Watermarking, Fingerprinting, Model Access, and AttacksIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Isabell Lederer

Rudolf Mayer

Andreas Rauber

245

22 Apr 2023

Byzantine-Resilient Learning Beyond Gradients: Distributing Evolutionary Search

Andrei Kucharavy

M. Monti

R. Guerraoui

Ljiljana Dolamic

161

20 Apr 2023

TieFake: Title-Text Similarity and Emotion-Aware Fake News DetectionIEEE International Joint Conference on Neural Network (IJCNN), 2023

156

19 Apr 2023

Interactive and Explainable Region-guided Radiology Report GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Georgios Kaissis

241

178

17 Apr 2023

VCD: Visual Causality Discovery for Cross-Modal Question ReasoningChinese Conference on Pattern Recognition and Computer Vision (CPRCV), 2023

288

17 Apr 2023

CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes

219

12 Apr 2023

Learning Transferable Pedestrian Representation from Multimodal Information Supervision

213

12 Apr 2023

ImageCaptioner

^2

: Image Captioner for Image Captioning Bias Amplification AssessmentAAAI Conference on Artificial Intelligence (AAAI), 2023

200

10 Apr 2023

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region AlignmentComputer Vision and Pattern Recognition (CVPR), 2023

Lewei Yao

Jianhua Han

Xiaodan Liang

Danqian Xu

Wei Zhang

Zhenguo Li

Hang Xu

VLM ObjD CLIP

301

103

10 Apr 2023

Model-Agnostic Gender Debiased Image CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

339

07 Apr 2023

Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions

253

06 Apr 2023

METransformer: Radiology Report Generation by Transformer with Multiple Learnable Expert TokensComputer Vision and Pattern Recognition (CVPR), 2023

Lingqiao Liu

195

142

05 Apr 2023

Towards Self-Explainability of Deep Neural Networks with Heatmap Captioning and Large-Language Models

165

05 Apr 2023

Cross-Domain Image Captioning with Discriminative FinetuningComputer Vision and Pattern Recognition (CVPR), 2023

Roberto Dessì

Michele Bevilacqua

Eleonora Gualdoni

Nathanaël Carraz Rakotonirina

Francesca Franzon

Marco Baroni

CLIP

248

04 Apr 2023

Changes to Captions: An Attentive Network for Remote Sensing Change CaptioningIEEE Transactions on Image Processing (IEEE TIP), 2023

Shizhen Chang

Pedram Ghamisi

183

03 Apr 2023

SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation

Arbish Akram

Nazar Khan

GAN CVBM

209

30 Mar 2023

LMDA-Net:A lightweight multi-dimensional attention network for general EEG-based brain-computer interface paradigms and interpretability

126

29 Mar 2023

$SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding$

SnakeVoxFormer: Transformer-based Single Image\\Voxel Reconstruction with Run Length Encoding

Jae Joong Lee

Bedrich Benes

ViT

177

28 Mar 2023

Medical Image Analysis using Deep Relational Learning

Zhi-Hu Liu

MedIm

158

28 Mar 2023

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report GenerationIEEE International Conference on Computer Vision (ICCV), 2023

511

28 Mar 2023