Towards Unsupervised Image Captioning with Shared Multimodal Embeddings

IEEE International Conference on Computer Vision (ICCV), 2019

25 August 2019

Iro Laina

Christian Rupprecht

Nassir Navab

SSL

ArXiv (abs)PDF HTML

Papers citing "Towards Unsupervised Image Captioning with Shared Multimodal Embeddings"

50 / 61 papers shown

Ultralytics YOLO Evolution: An Overview of YOLO26, YOLO11, YOLOv8 and YOLOv5 Object Detectors for Computer Vision and Pattern Recognition

Ranjan Sapkota

Manoj Karkee

ObjD MU

327

06 Oct 2025

Defeating Cerberus: Concept-Guided Privacy-Leakage Mitigation in Multimodal Language Models

215

29 Sep 2025

Ensemble Distribution Distillation for Self-Supervised Human Activity Recognition

Matthew Nolan

Lina Yao

Robert Davidson

172

10 Sep 2025

AGIC: Attention-Guided Image Captioning to Improve Caption Relevance

L. D. M. S. Sai Teja

Ashok Urlana

Pruthwik Mishra

150

09 Aug 2025

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey

164

11 Dec 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

499

09 Aug 2024

GazeXplain: Learning to Predict Natural Language Explanations of Visual ScanpathsEuropean Conference on Computer Vision (ECCV), 2024

Xianyu Chen

Ming Jiang

Qi Zhao

254

05 Aug 2024

Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning

391

23 Jul 2024

MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks

279

04 Jul 2024

Text Data-Centric Image Captioning with Interactive Prompts

Fan Wang

303

28 Mar 2024

Semi-Supervised Image Captioning Considering Wasserstein Graph Matching

Yang Yang

336

26 Mar 2024

MedCycle: Unpaired Medical Report Generation via Cycle-Consistency

270

20 Mar 2024

Text-to-Image Cross-Modal Generation: A Systematic Review

Maciej Żelaszczyk

Jacek Mańdziuk

343

21 Jan 2024

Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via Text-Only Training

249

04 Jan 2024

Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2023

292

14 Dec 2023

FIRST: A Million-Entry Dataset for Text-Driven Fashion Synthesis and Design

245

13 Nov 2023

State2Explanation: Concept-Based Explanations to Benefit Agent Learning and User UnderstandingNeural Information Processing Systems (NeurIPS), 2023

518

21 Sep 2023

MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual CaptioningAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Yaowei Wang

253

25 Aug 2023

CgT-GAN: CLIP-guided Text GAN for Image CaptioningACM Multimedia (ACM MM), 2023

239

23 Aug 2023

Transferable Decoding with Visual Entities for Zero-Shot Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2023

Chengjie Wang

197

31 Jul 2023

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence GenerationACM Multimedia Asia (MA), 2023

Zhiyuan Li

Dongnan Liu

Heng Wang

Chaoyi Zhang

Weidong (Tom) Cai

RALM

224

27 Jul 2023

ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple OraclesNatural Language Processing and Chinese Computing (NLPCC), 2023

Haoqin Tu

Bowen Yang

Xianfeng Zhao

222

29 Jun 2023

Image Captioning with Multi-Context Synthetic DataAAAI Conference on Artificial Intelligence (AAAI), 2023

Yueyi Zhang

277

29 May 2023

Text-based Person Search without Parallel Image-Text DataACM Multimedia (ACM MM), 2023

Min Zhang

357

22 May 2023

Multimodal Data Augmentation for Image Captioning using Diffusion Models

220

03 May 2023

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal MappingInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

330

26 Apr 2023

ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yaowei Wang

321

11 Mar 2023

Graph Neural Networks in Vision-Language Image Understanding: A SurveyThe Visual Computer (TVC), 2023

337

07 Mar 2023

DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only TrainingInternational Conference on Learning Representations (ICLR), 2023

Yi Yang

248

126

06 Mar 2023

KENGIC: KEyword-driven and N-Gram Graph based Image CaptioningInternational Conference on Digital Image Computing: Techniques and Applications (DICTA), 2022

Brandon Birmingham

A. Muscat

124

07 Feb 2023

Semi-Supervised Image Captioning by Adversarially Propagating Labeled DataIEEE Access (IEEE Access), 2023

In So Kweon

174

26 Jan 2023

Modularity through Attention: Efficient Training and Transfer of Language-Conditioned Policies for Robot ManipulationConference on Robot Learning (CoRL), 2022

255

08 Dec 2022

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

262

22 Nov 2022

Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment

Junyan Wang

Yi Zhang

Ming Yan

Ji Zhang

Jitao Sang

VLM

154

14 Nov 2022

Text-Only Training for Image Captioning using Noise-Injected CLIPConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

412

130

01 Nov 2022

Language-free Training for Zero-shot Video GroundingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

233

24 Oct 2022

Modal-specific Pseudo Query Generation for Video Corpus Moment RetrievalConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

259

23 Oct 2022

Data Poisoning Attacks Against Multimodal EncodersInternational Conference on Machine Learning (ICML), 2022

Ziqing Yang

Xinlei He

Zheng Li

Michael Backes

440

30 Sep 2022

REST: REtrieve & Self-Train for generative action recognition

Adrian Bulat

Enrique Sanchez

Brais Martínez

Georgios Tzimiropoulos

VLM

272

29 Sep 2022

Prompt-based Learning for Unpaired Image CaptioningIEEE transactions on multimedia (IEEE TMM), 2022

Yaowei Wang

251

26 May 2022

Multimodal Knowledge Alignment with Reinforcement Learning

...

Prithviraj Ammanabrolu

Yejin Choi

339

25 May 2022

Language Models Can See: Plugging Visual Controls in Text Generation

Lingpeng Kong

368

116

05 May 2022

SceneTrilogy: On Human Scene-Sketch and its Complementarity with Photo and TextComputer Vision and Pattern Recognition (CVPR), 2022

Pinaki Nath Chowdhury

430

25 Apr 2022

Pseudo-Q: Generating Pseudo Language Queries for Visual GroundingComputer Vision and Pattern Recognition (CVPR), 2022

Gao Huang

393

16 Mar 2022

Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept RecognitionIEEE transactions on multimedia (IEEE TMM), 2022

Yaowei Wang

246

07 Mar 2022

Unsupervised Temporal Video Grounding with Deep Semantic ClusteringAAAI Conference on Artificial Intelligence (AAAI), 2022

272

14 Jan 2022

Object-Centric Unsupervised Image Captioning

Ser-Nam Lim

206

02 Dec 2021

Neural Attention for Image Captioning: Review of Outstanding Methods

Zanyar Zohourianshahzadi

Jugal Kalita

VLM

222

29 Nov 2021

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic ArithmeticComputer Vision and Pattern Recognition (CVPR), 2021

Lior Wolf

440

246

29 Nov 2021

Multimodal End-to-End Group Emotion Recognition using Cross-Modal Attention

Lev Evtodienko

138

10 Nov 2021