v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,580 papers shown

Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification

03 Dec 2025

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

117

24 Nov 2025

Pharmacophore-based design by learning on voxel grids

19 Nov 2025

Medical Report Generation: A Hierarchical Task Structure-Based Cross-Modal Causal Intervention Framework

04 Nov 2025

SilhouetteTell: Practical Video Identification Leveraging Blurred Recordings of Video Subtitles

Guanchong Huang

Song Fang

103

31 Oct 2025

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

31 Oct 2025

Generating Accurate and Detailed Captions for High-Resolution Images

219

31 Oct 2025

Transformers in Medicine: Improving Vision-Language Alignment for Medical Image Captioning

Yogesh Thakku Suresh

Vishwajeet Shivaji Hogale

Luca-Alexandru Zamfira

Anandavardhana Hegde

MedIm LM&MA

458

29 Oct 2025

MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering

101

26 Oct 2025

StarBench: A Turn-Based RPG Benchmark for Agentic Multimodal Decision-Making and Information Seeking

132

21 Oct 2025

MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching

219

16 Oct 2025

MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites

...

248

14 Oct 2025

Convolutional Attention in Betting Exchange Markets

14 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

151

12 Oct 2025

AI-Driven Radiology Report Generation for Traumatic Brain Injuries

Riadh Bouslimi

Houda Trabelsi

Wahiba Ben Abdssalem Karaa

Hana Hedhli

MedIm

112

09 Oct 2025

Uncertainty in Machine Learning

Hans Weytjens

Wouter Verbeke

252

07 Oct 2025

The Transformer Cookbook

Emile Dos Santos Ferreira

Anej Svete

David Chiang

150

01 Oct 2025

MCM-DPO: Multifaceted Cross-Modal Direct Preference Optimization for Alt-text Generation

01 Oct 2025

FinCap: Topic-Aligned Captions for Short-Form Financial YouTube Videos

30 Sep 2025

Understanding Cognitive States from Head & Hand Motion Data

Kaiang Wen

Mark Roman Miller

29 Sep 2025

Diff-3DCap: Shape Captioning with Diffusion ModelsIEEE Transactions on Visualization and Computer Graphics (TVCG), 2025

132

28 Sep 2025

Universal Multi-Domain Translation via Diffusion Routers

116

26 Sep 2025

Unlocking Financial Insights: An advanced Multimodal Summarization with Multimodal Output Framework for Financial Advisory Videos

121

25 Sep 2025

An overview of neural architectures for self-supervised audio representation learning from masked spectrograms

187

23 Sep 2025

Pre-Trained CNN Architecture for Transformer-Based Image Caption Generation Model

Amanuel Tafese Dufera

ViT VLM

139

22 Sep 2025

DeepEyeNet: Generating Medical Report for Retinal Images

Jia-Hong Huang

MedIm

172

16 Sep 2025

Simulating Sinogram-Domain Motion and Correcting Image-Domain Artifacts Using Deep Learning in HR-pQCT Bone ImagingIEEE Transactions on Radiation and Plasma Medical Sciences (TRPMS), 2025

Farhan Sadik

Christopher L. Newman

Stuart J. Warden

Rachel K. Surowiec

MedIm

145

13 Sep 2025

Zero-shot Hierarchical Plant Segmentation via Foundation Segmentation Models and Text-to-image Attention

180

11 Sep 2025

Compressing CNN models for resource-constrained systems by channel and layer pruning

Ahmed Sadaqa

Di Liu

157

10 Sep 2025

Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning

08 Sep 2025

Lesion-Aware Visual-Language Fusion for Automated Image Captioning of Ulcerative Colitis Endoscopic Examinations

Alexis Ivan Lopez Escamilla

Gilberto Ochoa

Sharib Al

MedIm

03 Sep 2025

Omnidirectional Spatial Modeling from Correlated Panoramas

Xinshen Zhang

Tongxi Fu

Xu Zheng

153

02 Sep 2025

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

201

01 Sep 2025

Automatic Identification and Description of Jewelry Through Computer Vision and Neural Networks for Translators and InterpretersApplied Sciences (AS), 2025

José M. Alcalde-Llergo

Enrique Yeguas-Bolivar

124

31 Aug 2025

Event-Enriched Image Analysis Grand Challenge at ACM Multimedia 2025

104

26 Aug 2025

From Basic Affordances to Symbolic Thought: A Computational Phylogenesis of Biological Intelligence

John E. Hummel

Rachel Heaton

20 Aug 2025

AGIC: Attention-Guided Image Captioning to Improve Caption Relevance

L. D. M. S. Sai Teja

Ashok Urlana

Pruthwik Mishra

135

09 Aug 2025

Mask & Match: Learning to Recognize Handwritten Math with Self-Supervised Attention

Shree Mitra

Ritabrata Chakraborty

Nilkanta Sahu

110

08 Aug 2025

X-SAM: From Segment Anything to Any Segmentation

133

06 Aug 2025

Excavate the potential of Single-Scale Features: A Decomposition Network for Water-Related Optical Image EnhancementIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE J-STARS), 2025

107

06 Aug 2025

AttZoom: Attention Zoom for Better Visual Features

177

05 Aug 2025

SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation

121

03 Aug 2025

Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network

Jiaxing Yang

Lihe Zhang

Huchuan Lu

151

02 Aug 2025

From Image Captioning to Visual Storytelling

223

31 Jul 2025

Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques

226

30 Jul 2025

When Better Eyes Lead to Blindness: A Diagnostic Study of the Information Bottleneck in CNN-LSTM Image Captioning ModelsInternational Journal of Computer Applications (IJCA), 2025

Hitesh Kumar Gupta

VLM

211

24 Jul 2025

Failure Prediction in Conversational Recommendation SystemsACM Conference on Recommender Systems (RecSys), 2025

Maria Vlachou

114

23 Jul 2025

OrdShap: Feature Position Importance for Sequential Black-Box Models

314

16 Jul 2025

Domain-Adaptive Small Language Models for Structured Tax Code Prediction

Souvik Nath

Sumit Wadhwa

Luis Perez

174

15 Jul 2025

Cross-Modal Dual-Causal Learning for Long-Term Action Recognition

207

09 Jul 2025