v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 1,489 papers shown

MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP

167

24 Sep 2023

ContextRef: Evaluating Referenceless Metrics For Image Description GenerationInternational Conference on Learning Representations (ICLR), 2023

246

21 Sep 2023

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset UpdatesComputer Vision and Pattern Recognition (CVPR), 2023

227

20 Sep 2023

Guide Your Agent with Adaptive Multimodal RewardsNeural Information Processing Systems (NeurIPS), 2023

355

19 Sep 2023

Forgedit: Text Guided Image Editing via Learning and Forgetting

228

19 Sep 2023

What is the Best Automated Metric for Text to Motion Generation?ACM SIGGRAPH Conference and Exhibition on Computer Graphics and Interactive Techniques in Asia (SIGGRAPH Asia), 2023

276

19 Sep 2023

Market-GAN: Adding Control to Financial Market Data Generation with Semantic ContextAAAI Conference on Artificial Intelligence (AAAI), 2023

244

14 Sep 2023

Language Models as Black-Box Optimizers for Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

411

12 Sep 2023

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic PromptsInternational Conference on Machine Learning (ICML), 2023

371

123

12 Sep 2023

Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image CaptioningInternational Conference on Language Resources and Evaluation (LREC), 2023

Zhengcong Fei

266

10 Sep 2023

Exploring Sparse MoE in GANs for Text-conditioned Image SynthesisComputer Vision and Pattern Recognition (CVPR), 2023

262

07 Sep 2023

Chasing Consistency in Text-to-3D Generation from a Single Image

Yibing Zhan

206

07 Sep 2023

Generating Realistic Images from In-the-wild SoundsIEEE International Conference on Computer Vision (ICCV), 2023

256

05 Sep 2023

ControlMat: A Controlled Generative Approach to Material CaptureACM Transactions on Graphics (TOG), 2023

256

04 Sep 2023

Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic SegmentationAsian Conference on Computer Vision (ACCV), 2023

469

04 Sep 2023

RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large ModelIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Pareesa Ameneh Golnari

Yuxiong He

256

02 Sep 2023

Socratis: Are large multimodal models emotionally aware?

344

31 Aug 2023

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMsComputer Vision and Pattern Recognition (CVPR), 2023

Hao Fei

Wei Ji

220

26 Aug 2023

Dense Text-to-Image Generation with Attention ModulationIEEE International Conference on Computer Vision (ICCV), 2023

Jun-Yan Zhu

317

182

24 Aug 2023

With a Little Help from your own Past: Prototypical Memory Networks for Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2023

Lorenzo Baraldi

186

23 Aug 2023

CgT-GAN: CLIP-guided Text GAN for Image CaptioningACM Multimedia (ACM MM), 2023

229

23 Aug 2023

MusicJam: Visualizing Music Insights via Generated Narrative IllustrationsCommunications in Information and Systems (CIS), 2023

Nan Cao

201

22 Aug 2023

DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic AlignmentIEEE International Conference on Computer Vision (ICCV), 2023

Xujie Zhang

Binbin Yang

Michael C. Kampffmeyer

Hang Xu

Xiaodan Liang

DiffM

396

22 Aug 2023

Generic Attention-model Explainability by Weighted Relevance AccumulationACM Multimedia Asia (MA), 2023

156

20 Aug 2023

AltDiffusion: A Multilingual Text-to-Image Diffusion ModelAAAI Conference on Artificial Intelligence (AAAI), 2023

309

19 Aug 2023

DUAW: Data-free Universal Adversarial Watermark against Stable Diffusion Customization

226

19 Aug 2023

DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination CapabilityIEEE International Conference on Computer Vision (ICCV), 2023

Runhu Huang

Jianhua Han

Guansong Lu

Xiaodan Liang

Yihan Zeng

Wei Zhang

Hang Xu

DiffM

171

18 Aug 2023

Learning to Generate Semantic Layouts for Higher Text-Image Correspondence in Text-to-Image SynthesisIEEE International Conference on Computer Vision (ICCV), 2023

183

16 Aug 2023

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

323

1,282

13 Aug 2023

DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity

Adriana Romero Soriano

EGVM

362

11 Aug 2023

The Five-Dollar Model: Generating Game Maps and Sprites from Sentence EmbeddingsArtificial Intelligence and Interactive Digital Entertainment Conference (AIIDE), 2023

165

08 Aug 2023

Learning Concise and Descriptive Attributes for Visual RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

297

07 Aug 2023

Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language ModelsACM Multimedia (ACM MM), 2023

237

06 Aug 2023

Multimodal Neurons in Pretrained Text-Only Transformers

Antonio Torralba

275

03 Aug 2023

Reverse Stable Diffusion: What prompt was used to generate this image?Computer Vision and Image Understanding (CVIU), 2023

Florinel-Alin Croitoru

276

02 Aug 2023

Guiding Image Captioning Models Toward More Specific CaptionsIEEE International Conference on Computer Vision (ICCV), 2023

Simon Kornblith

Lala Li

Zirui Wang

Thao Nguyen

320

31 Jul 2023

Visual Captioning at Will: Describing Images and Videos Guided by a Few Stylized SentencesACM Multimedia (ACM MM), 2023

Qin Jin

241

31 Jul 2023

UniBriVL: Robust Universal Representation and Generation of Audio Driven Diffusion Models

227

29 Jul 2023

Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence GenerationACM Multimedia Asia (MA), 2023

Zhiyuan Li

Dongnan Liu

Heng Wang

Chaoyi Zhang

Weidong (Tom) Cai

RALM

199

27 Jul 2023

Improving Multimodal Datasets with Image CaptioningNeural Information Processing Systems (NeurIPS), 2023

Thao Nguyen

263

125

19 Jul 2023

Text2Layer: Layered Image Generation using Latent Diffusion Model

196

19 Jul 2023

Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation EvaluationACM Multimedia (ACM MM), 2023

Lorenzo Baraldi

154

18 Jul 2023

Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

140

12 Jul 2023

Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image Alignment with Iterative VQA FeedbackNeural Information Processing Systems (NeurIPS), 2023

Jaskirat Singh

Liang Zheng

306

10 Jul 2023

Linear Alignment of Vision-language Models for Image Captioning

486

10 Jul 2023

CLIPAG: Towards Generator-Free Text-to-Image GenerationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Roy Ganz

Michael Elad

VLM

227

29 Jun 2023

Self-Supervised Image Captioning with CLIP

Chuanyang Jin

VLM SSL

210

26 Jun 2023

Restart Sampling for Improving Generative ProcessesNeural Information Processing Systems (NeurIPS), 2023

315

26 Jun 2023

Learning Descriptive Image Captioning via Semipermeable Maximum Likelihood EstimationNeural Information Processing Systems (NeurIPS), 2023

Zihao Yue

Anwen Hu

Liang Zhang

Qin Jin

350

23 Jun 2023

Listener Model for the PhotoBook Referential Game with CLIPScores as Implicit Reference ChainAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Shih-Lun Wu

Yi-Hui Chou

Liang Li

152

16 Jun 2023