Unsupervised Image Captioning

27 November 2018

Wei Liu

Papers citing "Unsupervised Image Captioning"

34 / 34 papers shown

Title
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning Jianjie Luo Jingwen Chen Yehao Li Yingwei Pan Jianlin Feng Hongyang Chao Ting Yao DiffM VLM 53 0 0 03 Jan 2025
MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks Elad Hirsch Gefen Dawidowicz A. Tal MedIm 37 1 0 04 Jul 2024
Semi-Supervised Image Captioning Considering Wasserstein Graph Matching Yang Yang 38 0 0 26 Mar 2024
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding Jiamin Luo Jianing Zhao Jingjing Wang Guodong Zhou 46 0 0 29 Feb 2024
MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning Bang-ju Yang Fenglin Liu X. Wu Yaowei Wang Xu Sun Yuexian Zou VLM CLIP 44 13 0 25 Aug 2023
Diagnosing Human-object Interaction Detectors Fangrui Zhu Yiming Xie Weidi Xie Huaizu Jiang 28 7 0 16 Aug 2023
Transferable Decoding with Visual Entities for Zero-Shot Image Captioning Junjie Fei Teng Wang Jinrui Zhang Zhenyu He Chengjie Wang Feng Zheng VLM 28 34 0 31 Jul 2023
Text-based Person Search without Parallel Image-Text Data Yang Bai Jingyao Wang Min Cao Cheng Chen Ziqiang Cao Liqiang Nie Min Zhang 27 13 0 22 May 2023
DiffCap: Exploring Continuous Diffusion on Image Captioning Yufeng He Zefan Cai Xu Gan Baobao Chang DiffM 21 5 0 20 May 2023
Textual Explanations for Automated Commentary Driving Marc Alexander Kühn Daniel Omeiza Lars Kunze 24 6 0 12 Apr 2023
KENGIC: KEyword-driven and N-Gram Graph based Image Captioning Brandon Birmingham A. Muscat 22 1 0 07 Feb 2023
Zero-shot Image Captioning by Anchor-augmented Vision-Language Space Alignment Junyan Wang Yi Zhang Ming Yan Ji Zhang Jitao Sang VLM 31 9 0 14 Nov 2022
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 34 7 0 23 Oct 2022
Paraphrasing Is All You Need for Novel Object Captioning Cheng Yang Yao-Hung Hubert Tsai Wanshu Fan Ruslan Salakhutdinov Louis-Philippe Morency Yu-Chiang Frank Wang 36 4 0 25 Sep 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 26 43 0 17 Jun 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Xiao Wang Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang C. L. P. Chen VLM 23 31 0 26 May 2022
Language Models Can See: Plugging Visual Controls in Text Generation Yixuan Su Tian Lan Yahui Liu Fangyu Liu Dani Yogatama Yan Wang Lingpeng Kong Nigel Collier VLM MLLM 46 97 0 05 May 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 37 50 0 16 Mar 2022
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition Peipei Zhu Xiao Wang Yong Luo Zhenglong Sun Wei-Shi Zheng Yaowei Wang C. L. P. Chen 27 12 0 07 Mar 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 13 89 0 31 Jan 2022
Syntax Customized Video Captioning by Imitating Exemplar Sentences Yitian Yuan Lin Ma Wenwu Zhu 22 6 0 02 Dec 2021
Neural Attention for Image Captioning: Review of Outstanding Methods Zanyar Zohourianshahzadi Jugal Kalita VLM 27 45 0 29 Nov 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 34 192 0 29 Nov 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 94 43 0 29 Aug 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 67 254 0 14 Jul 2021
Step-Wise Hierarchical Alignment Network for Image-Text Matching Zhong Ji Kexin Chen Haoran Wang 22 93 0 11 Jun 2021
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze Ece Takmaz Sandro Pezzelle Lisa Beinborn Raquel Fernández 27 22 0 09 Nov 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei-Neng Chen Weiping Wang Li Liu M. Lew VLM 112 31 0 16 Oct 2020
UDBNET: Unsupervised Document Binarization Network via Adversarial Game Amandeep Kumar S. Ghose Pinaki Nath Chowdhury P. Roy Umapada Pal 43 12 0 14 Jul 2020
Recurrent Relational Memory Network for Unsupervised Image Captioning Dan Guo Yang Wang Peipei Song Meng Wang GAN 17 40 0 24 Jun 2020
Adversarial reconstruction for Multi-modal Machine Translation Jean-Benoit Delbrouck Stéphane Dupont GAN 32 2 0 07 Oct 2019
A Fast and Accurate One-Stage Approach to Visual Grounding Zhengyuan Yang Boqing Gong Liwei Wang Wenbing Huang Dong Yu Jiebo Luo ObjD 14 360 0 18 Aug 2019
Unpaired Cross-lingual Image Caption Generation with Self-Supervised Rewards Yuqing Song Shizhe Chen Yida Zhao Qin Jin SSL 21 40 0 15 Aug 2019
Automatic Radiology Report Generation based on Multi-view Image Fusion and Medical Concept Enrichment Jianbo Yuan Haofu Liao R. Luo Jiebo Luo MedIm 21 193 0 22 Jul 2019