v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,580 papers shown

StreakNet-Arch: An Anti-scattering Network-based Architecture for Underwater Carrier LiDAR-Radar Imaging

393

14 Apr 2024

Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts

Övgü Özdemir

Erdem Akagündüz

307

12 Apr 2024

A Mutual Inclusion Mechanism for Precise Boundary Segmentation in Medical Images

117

12 Apr 2024

FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning

168

12 Apr 2024

Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets

134

09 Apr 2024

Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation

348

06 Apr 2024

A Bi-consolidating Model for Joint Relational Triple Extraction

281

05 Apr 2024

AdaGlimpse: Active Visual Exploration with Arbitrary Glimpse Position and ScaleEuropean Conference on Computer Vision (ECCV), 2024

407

04 Apr 2024

Memory-based Cross-modal Semantic Alignment Network for Radiology Report Generation

227

31 Mar 2024

Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights

...

Ehsan Khodapanah Aghdam

Amirhossein Kazerouni

Ilker Hacihaliloglu

Dorit Merhof

302

28 Mar 2024

De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts

Yuzheng Wang

Dingkang Yang

Zhaoyu Chen

Lihua Zhang

202

28 Mar 2024

Text Data-Centric Image Captioning with Interactive Prompts

Fan Wang

198

28 Mar 2024

Semi-Supervised Image Captioning Considering Wasserstein Graph Matching

Yang Yang

288

26 Mar 2024

Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image PersonalizationComputer Vision and Pattern Recognition (CVPR), 2024

209

22 Mar 2024

TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation

Bartlomiej W. Papie.z

Mohammad Yaqub

MedIm

195

20 Mar 2024

HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling

317

20 Mar 2024

Training A Small Emotional Vision Language Model for Visual Art Comprehension

Meng Wang

188

17 Mar 2024

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival

185

16 Mar 2024

Select and Distill: Selective Dual-Teacher Knowledge Transfer for Continual Learning on Vision-Language ModelsEuropean Conference on Computer Vision (ECCV), 2024

270

14 Mar 2024

Rethinking Referring Object Removal

203

14 Mar 2024

TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language NavigationIEEE International Conference on Multimedia and Expo (ICME), 2024

185

13 Mar 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

222

12 Mar 2024

A Survey of Explainable Knowledge Tracing

265

12 Mar 2024

Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback

L. AdarshN

V. ArunP

L. AravindhN

125

11 Mar 2024

How to Understand Named Entities: Using Common Sense for News CaptioningACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP) (TOMCCAP), 2024

202

11 Mar 2024

Transformer based Multitask Learning for Image Captioning and Object DetectionPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2024

Debolena Basak

P. K. Srijith

M. Desarkar

187

10 Mar 2024

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation

Joseph Cho

Fachrina Dewi Puspitasari

Lik-Hang Lee

274

08 Mar 2024

Rule-driven News Captioning

238

08 Mar 2024

Towards Multimodal Human Intention Understanding Debiasing via Subject-DeconfoundingAAAI Conference on Artificial Intelligence (AAAI), 2024

Dingkang Yang

Zhaoyu Chen

Lihua Zhang

222

08 Mar 2024

MeaCap: Memory-Augmented Zero-shot Image Captioning

302

06 Mar 2024

Best of Both Worlds: A Pliable and Generalizable Neuro-Symbolic Approach for Relation Classification

203

05 Mar 2024

Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment

302

05 Mar 2024

Attention Guidance Mechanism for Handwritten Mathematical Expression Recognition

Yutian Liu

Wenjun Ke

Jianguo Wei

295

04 Mar 2024

DINER: Debiasing Aspect-based Sentiment Analysis with Multi-variable Causal Inference

272

02 Mar 2024

ELA: Efficient Local Attention for Deep Convolutional Neural Networks

Wei Xu

Yi Wan

170

02 Mar 2024

How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding

234

29 Feb 2024

SNE-RoadSegV2: Advancing Heterogeneous Feature Fusion and Fallibility Awareness for Freespace Detection

295

29 Feb 2024

Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

212

28 Feb 2024

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

219

28 Feb 2024

On the Challenges and Opportunities in Generative AI

...

759

28 Feb 2024

TMT: Tri-Modal Translation between Speech, Image, and Text by Processing Different Modalities as Different Languages

331

25 Feb 2024

ConVQG: Contrastive Visual Question Generation with Multimodal Guidance

174

20 Feb 2024

Heterogeneity-aware Cross-school Electives Recommendation: a Hybrid Federated Approach

142

19 Feb 2024

AICAttack: Adversarial Image Captioning Attack with Attention-Based Optimization

Wei Liu

202

19 Feb 2024

Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection

226

15 Feb 2024

On the Resurgence of Recurrent Models for Long Sequences -- Survey and Research Opportunities in the Transformer Era

299

12 Feb 2024

Savvy: Trustworthy Autonomous Vehicles Architecture

Ali Shoker

Rehana Yasmin

Paulo Esteves-Verissimo

216

08 Feb 2024

Intensive Vision-guided Network for Radiology Report GenerationPhysics in Medicine and Biology (PMB), 2023

259

06 Feb 2024

Revisiting Generative Adversarial Networks for Binary Semantic Segmentation on Imbalanced Datasets

Lei Xu

Moncef Gabbouj

GAN

197

03 Feb 2024

Image Fusion via Vision-Language Model

...

Luc Van Gool

286

03 Feb 2024