v1v2 (latest)

ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing

Computer Vision and Pattern Recognition (CVPR), 2023

4 March 2023

Dongsheng Wang

Papers citing "ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing"

28 / 28 papers shown

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction

156

03 Dec 2025

Parallel Tokenizers: Rethinking Vocabulary Design for Cross-Lingual Transfer

Muhammad Dehan Al Kautsar

Fajri Koto

274

07 Oct 2025

PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

231

07 Aug 2025

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

...

244

17 Jul 2025

Discovering Fine-Grained Visual-Concept Relations by Disentangled Optimal Transport Concept Bottleneck ModelsComputer Vision and Pattern Recognition (CVPR), 2025

391

12 May 2025

Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024

500

03 Apr 2025

ANNEXE: Unified Analyzing, Answering, and Pixel Grounding for Egocentric InteractionComputer Vision and Pattern Recognition (CVPR), 2025

377

02 Apr 2025

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning

322

31 Mar 2025

Explaining Domain Shifts in Language: Concept erasing for Interpretable Image ClassificationComputer Vision and Pattern Recognition (CVPR), 2025

457

24 Mar 2025

Enhanced Contrastive Learning with Multi-view Longitudinal Data for Chest X-ray Report GenerationComputer Vision and Pattern Recognition (CVPR), 2025

305

27 Feb 2025

Visual Zero-Shot E-Commerce Product Attribute Value ExtractionNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025

Jiaying Gong

Ming Cheng

Hongda Shen

Pierre-Yves Vandenbussche

Janet Jenq

Hoda Eldardiry

241

21 Feb 2025

Semantically Guided Dynamic Visual Prototype Refinement for Compositional Zero-Shot Learning

Hongwei Liu

311

13 Jan 2025

TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image CaptioningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Joshua Forster Feinglass

Yezhou Yang

255

30 Sep 2024

Fine-grained length controllable video captioning with ordinal embeddingsIEEE Access (IEEE Access), 2024

Tomoya Nitta

Takumi Fukuzawa

Toru Tamaki

391

27 Aug 2024

EditScribe: Non-Visual Image Editing with Natural Language Verification LoopsInternational ACM SIGACCESS Conference on Computers and Accessibility (ASSETS), 2024

231

13 Aug 2024

Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis

524

09 Aug 2024

HICEScore: A Hierarchical Metric for Image Captioning Evaluation

238

26 Jul 2024

MemBench: Memorized Image Trigger Prompt Dataset for Diffusion Models

380

24 Jul 2024

Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights

347

16 Jul 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

251

12 Mar 2024

MeaCap: Memory-Augmented Zero-shot Image Captioning

352

06 Mar 2024

NExT-GPT: Any-to-Any Multimodal LLMInternational Conference on Machine Learning (ICML), 2023

Hao Fei

Wei Ji

479

761

11 Sep 2023

Improving Generalization of Image Captioning with Unsupervised Prompt Learning

Hongchen Wei

Zhenzhong Chen

VLM

207

05 Aug 2023

Visual Captioning at Will: Describing Images and Videos Guided by a Few Stylized SentencesACM Multimedia (ACM MM), 2023

Qin Jin

294

31 Jul 2023

ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple OraclesNatural Language Processing and Chinese Computing (NLPCC), 2023

Haoqin Tu

Bowen Yang

Xianfeng Zhao

241

29 Jun 2023

LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented Language Model PromptingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

223

31 May 2023

Image Captioning with Multi-Context Synthetic DataAAAI Conference on Artificial Intelligence (AAAI), 2023

Yueyi Zhang

299

29 May 2023

Caption Anything: Interactive Image Description with Diverse Multimodal Controls

564

130

04 May 2023