v1v2v3 (latest)

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention

10 February 2015

Jimmy Ba

Aaron Courville

Papers citing "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention"

50 / 3,580 papers shown

Demonstration Based Explainable AI for Learning from Demonstration MethodsIEEE Robotics and Automation Letters (RA-L), 2024

Morris Gu

Elizabeth Croft

Dana Kulic

175

08 Oct 2024

CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News DetectionAsian Conference on Computer Vision (ACCV), 2024

Devank

Jayateja Kalla

Soma Biswas

178

06 Oct 2024

BadCM: Invisible Backdoor Attack Against Cross-Modal LearningIEEE Transactions on Image Processing (TIP), 2024

Zheng Zhang

Lei Zhu

231

03 Oct 2024

Facial Action Unit Detection by Adaptively Constraining Self-Attention and Causally Deconfounding SampleInternational Journal of Computer Vision (IJCV), 2024

Zhiwen Shao

150

02 Oct 2024

Softmax is not Enough (for Sharp Size Generalisation)

Petar Velickovic

Christos Perivolaropoulos

Federico Barbero

Razvan Pascanu

405

01 Oct 2024

DreamStruct: Understanding Slides and User Interfaces via Synthetic Data GenerationEuropean Conference on Computer Vision (ECCV), 2024

Yi-Hao Peng

246

30 Sep 2024

See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation LearningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

265

29 Sep 2024

DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image CaptioningAsian Conference on Computer Vision (ACCV), 2024

Kazuki Matsuda

Yuiga Wada

Komei Sugiura

274

28 Sep 2024

IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

217

26 Sep 2024

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models

418

19 Sep 2024

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

Hanane Azzag

M. Lebbah

ObjD

349

17 Sep 2024

PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics

Jingmin Sun

Zecheng Zhang

243

15 Sep 2024

KARGEN: Knowledge-enhanced Automated Radiology Report Generation Using Large Language ModelsInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Yingshu Li

Luping Zhou

172

09 Sep 2024

FODA-PG for Enhanced Medical Imaging Narrative Generation: Adaptive Differentiation of Normal and Abnormal AttributesIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2024

336

06 Sep 2024

TempMe: Video Temporal Token Merging for Efficient Text-Video RetrievalInternational Conference on Learning Representations (ICLR), 2024

Leqi Shen

Tianxiang Hao

Tao He

Sicheng Zhao

Pengzhang Liu

Yongjun Bao

Guiguang Ding

445

02 Sep 2024

See or Guess: Counterfactually Regularized Image CaptioningACM Multimedia (MM), 2024

Qian Cao

Xu Chen

Ruihua Song

Xiting Wang

Xinting Huang

Yuchen Ren

CML

218

29 Aug 2024

Pixels to Prose: Understanding the art of Image Captioning

Hrishikesh Singh

Aarti Sharma

Millie Pant

3DV VLM

222

28 Aug 2024

Graph Attention Inference of Network Topology in Multi-Agent SystemsIFAC-PapersOnLine (IFAC-PapersOnLine), 2024

146

27 Aug 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Lorenzo Baraldi

291

26 Aug 2024

A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models

Nasim Yahya Soltani

426

23 Aug 2024

VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models

Purushothaman Natarajan

Athira Nambiar

AAML

133

23 Aug 2024

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning

Zhihao Li

Yao Du

Yang Liu

Yan Zhang

Yufang Liu

Hao Fei

Xunliang Cai

LRM

249

21 Aug 2024

TraDiffusion: Trajectory-Based Training-Free Image Generation

Mingrui Wu

Jiayi Ji

Xiaoshuai Sun

Rongrong Ji

207

19 Aug 2024

Ask, Attend, Attack: A Effective Decision-Based Black-Box Targeted Attack for Image-to-Text ModelsNeural Information Processing Systems (NeurIPS), 2024

199

16 Aug 2024

The Dawn of KAN in Image-to-Image (I2I) Translation: Integrating Kolmogorov-Arnold Networks with GANs for Unpaired I2I TranslationConference on Algebraic Informatics (CAI), 2024

192

15 Aug 2024

LLMI3D: MLLM-based 3D Perception from a Single 2D Image

Fan Yang

Sicheng Zhao

Yanhao Zhang

Haoxiang Chen

Hui Chen

Wenbo Tang

Guiguang Ding

245

14 Aug 2024

Bi-directional Contextual Attention for 3D Dense CaptioningEuropean Conference on Computer Vision (ECCV), 2024

209

13 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

432

09 Aug 2024

ArtVLM: Attribute Recognition Through Vision-Based Prefix Language ModelingEuropean Conference on Computer Vision (ECCV), 2024

Feng Yang

341

07 Aug 2024

GazeXplain: Learning to Predict Natural Language Explanations of Visual ScanpathsEuropean Conference on Computer Vision (ECCV), 2024

Xianyu Chen

Ming Jiang

Qi Zhao

211

05 Aug 2024

User-in-the-loop Evaluation of Multimodal LLMs for Activity AssistanceIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Ruta Desai

318

04 Aug 2024

ST-SACLF: Style Transfer Informed Self-Attention Classifier for Bias-Aware Painting Classification

Mridula Vijendran

Frederick W. B. Li

Jingjing Deng

Hubert P. H. Shum

266

03 Aug 2024

Review of Cloud Service Composition for Intelligent Manufacturing

Cuixia Li

Liqiang Liu

Li Shi

128

03 Aug 2024

Towards End-to-End Explainable Facial Action Unit Recognition via Vision-Language Joint LearningACM Multimedia (MM), 2024

269

01 Aug 2024

Block-Operations: Using Modular Routing to Improve Compositional Generalization

Florian Dietz

Dietrich Klakow

AI4CE

200

01 Aug 2024

GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction

Yanxu Mao

Peipei Liu

Tiehan Cui

207

31 Jul 2024

Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach

236

30 Jul 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual CuesEuropean Conference on Computer Vision (ECCV), 2024

Sara Sarto

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

183

29 Jul 2024

HICEScore: A Hierarchical Metric for Image Captioning Evaluation

213

26 Jul 2024

Attention Beats Linear for Fast Implicit Neural Representation Generation

282

22 Jul 2024

HERGen: Elevating Radiology Report Generation with Longitudinal Data

258

21 Jul 2024

Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2

Chun Xu

En-Wei Sun

155

19 Jul 2024

Impact of Model Size on Fine-tuned LLM Performance in Data-to-Text Generation: A State-of-the-Art Investigation

Joy Mahapatra

Utpal Garain

228

19 Jul 2024

Nearest Neighbor Future Captioning: Generating Descriptions for Possible Collisions in Object Placement Tasks

231

18 Jul 2024

XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach

Truong Thanh Hung Nguyen

Phuc Truong Loc Nguyen

Hung Cao

279

16 Jul 2024

Backdoor Attacks against Image-to-Image Networks

Rui Zhang

199

15 Jul 2024

Predicting Winning Captions for Weekly New Yorker Comics

Stanley Cao

Sonny Young

ViT VLM

139

12 Jul 2024

LEMoN: Label Error Detection using Multimodal Neighbors

403

10 Jul 2024

Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model

247

07 Jul 2024

Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference

Kai Shen

Yueting Zhuang

213

06 Jul 2024