v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,580 papers shown

Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training

Dingkang Yang

Lihua Zhang

199

06 Jul 2024

Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention

Rishi Mohan

Sanjay Sureshkumar

Vignesh Sivasubramaniam

153

28 Jun 2024

Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models

Nila Masrourisaadat

Nazanin Sedaghatkish

Fatemeh Sarshartehrani

Edward A. Fox

347

28 Jun 2024

Brain Tumor Classification using Vision Transformer with Selective Cross-Attention Mechanism and Feature Calibration

173

25 Jun 2024

Enhancing Scientific Figure Captioning Through Cross-modal Learning

Mateo Alejandro Rojas

Rafael Carranza

194

24 Jun 2024

Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification

Honori Udo

Takafumi Koshinaka

VLM

184

22 Jun 2024

A Data-Driven Guided Decoding Mechanism for Diagnostic Captioning

148

20 Jun 2024

Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events

M. Tami

Huthaifa I. Ashqar

Mohammed Elhenawy

276

19 Jun 2024

DDLNet: Boosting Remote Sensing Change Detection with Dual-Domain LearningIEEE International Conference on Multimedia and Expo (ICME), 2024

Wei Zhang

184

19 Jun 2024

M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description GenerationInternational Conference on Information Photonics (ICIP), 2024

Nagur Shareef Shaik

T. Cherukuri

Dong Hye Ye

MedIm

265

19 Jun 2024

Improving Large Models with Small models: Lower Costs and Better Performance

Yueting Zhuang

208

15 Jun 2024

Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey

Hongbo Zhang

Zongyang Ma

Wanxiang Che

Bing Qin

351

12 Jun 2024

Stealthy Targeted Backdoor Attacks against Image CaptioningIEEE Transactions on Information Forensics and Security (IEEE TIFS), 2024

235

09 Jun 2024

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

310

04 Jun 2024

CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models

Junho Kim

Hyunjun Kim

Yeonju Kim

Yong Man Ro

MLLM

222

04 Jun 2024

Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges

Daniel A. P. Oliveira

Eugénio Ribeiro

David Martins de Matos

VGen

228

04 Jun 2024

Ultrasound Report Generation with Cross-Modality Feature Alignment via Unsupervised Guidance

Nassir Navab

230

02 Jun 2024

Image Captioning via Dynamic Path Customization

Jiayi Ji

Yongjian Wu

258

01 Jun 2024

DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

Lei Li

216

31 May 2024

CoSy: Evaluating Textual Explanations of Neurons

204

30 May 2024

Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases

Xiangzhe Xu

193

30 May 2024

SIG: Efficient Self-Interpretable Graph Neural Network for Continuous-time Dynamic Graphs

244

29 May 2024

BRACTIVE: A Brain Activation Approach to Human Visual Brain Learning

Arabinda Kumar Choudhary

Khoa Luu

449

29 May 2024

mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis

Ruining Deng

Yuankai Huo

180

28 May 2024

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR

227

27 May 2024

Think Before You Act: A Two-Stage Framework for Mitigating Gender Bias Towards Vision-Language Tasks

336

27 May 2024

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

Yue Zhang

Hehe Fan

Yi Yang

289

24 May 2024

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

184

23 May 2024

Towards Retrieval-Augmented Architectures for Image Captioning

Lorenzo Baraldi

241

21 May 2024

Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text

275

21 May 2024

Predicting and Explaining Hearing Aid Usage Using Encoder-Decoder with Attention Mechanism and SHAPInternational Conference on Signal-Image Technology and Internet-Based Systems (SITIS), 2022

Qiqi Su

Eleftheria Iliadou

133

18 May 2024

Automated Radiology Report Generation: A Review of Recent AdvancesIEEE Reviews in Biomedical Engineering (RBME), 2024

252

17 May 2024

Faithful Attention Explainer: Verbalizing Decisions Based on Discriminative Features

Yao Rong

David Scheerer

Enkelejda Kasneci

266

16 May 2024

Spatial Semantic Recurrent Mining for Referring Image Segmentation

Jiaxing Yang

Lihe Zhang

Jiayu Sun

Huchuan Lu

303

15 May 2024

CSA-Net: Channel-wise Spatially Autocorrelated Attention Networks

Nick Nikzad

Yongsheng Gao

Jun Zhou

236

09 May 2024

Temporal and Heterogeneous Graph Neural Network for Remaining Useful Life Prediction

285

07 May 2024

DVMSR: Distillated Vision Mamba for Efficient Super-Resolution

Xiaoyan Lei

Wenlong Zhang

Weifeng Cao

397

05 May 2024

SalFAU-Net: Saliency Fusion Attention U-Net for Salient Object Detection

Kassaw Abraham Mulat

Zhengyong Feng

Tegegne Solomon Eshetie

Ahmed Endris Hasen

211

05 May 2024

Explainable Interface for Human-Autonomy Teaming: A Survey

269

04 May 2024

FITA: Fine-grained Image-Text Aligner for Radiology Report Generation

207

02 May 2024

Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach

Zhilin Zhang

Fangyu Wu

201

01 May 2024

Semi-supervised Text-based Person Search

Min Zhang

216

28 Apr 2024

Pre-training on High Definition X-ray Images: An Experimental Study

270

27 Apr 2024

SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models

Abhilash Nandy

180

27 Apr 2024

From Cognition to Computation: A Comparative Review of Human Attention and Transformer Architectures

Minglu Zhao

Dehong Xu

Tao Gao

126

25 Apr 2024

Understanding attention-based encoder-decoder networks: a case study with chess scoresheet recognition

Sergio Y. Hayashi

N. Hirata

199

23 Apr 2024

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting

Weidong Chen

179

19 Apr 2024

Resilience through Scene Context in Visual Referring Expression Generation

Simeon Junker

Sina Zarrieß

132

18 Apr 2024

Towards a Foundation Model for Partial Differential Equations: Multi-Operator Learning and Extrapolation

Jingmin Sun

Yuxuan Liu

Zecheng Zhang

Hayden Schaeffer

AI4CE

406

18 Apr 2024

HANet: A Hierarchical Attention Network for Change Detection With Bitemporal Very-High-Resolution Remote Sensing Images

262

164

14 Apr 2024