v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 1,488 papers shown

Noise Matters: Optimizing Matching Noise for Diffusion Classifiers

Yanghao Wang

Long Chen

DiffM VLM

284

15 Aug 2025

TweezeEdit: Consistent and Efficient Image Editing with Path Regularization

104

14 Aug 2025

Are Large Pre-trained Vision Language Models Effective Construction Safety Inspectors?

Xuezheng Chen

Zhengbo Zou

MLLM

14 Aug 2025

CountCluster: Training-Free Object Quantity Guidance with Cross-Attention Map Clustering for Text-to-Image Generation

Joohyeon Lee

Jin-Seop Lee

Jee-Hyong Lee

109

14 Aug 2025

Translation of Text Embedding via Delta Vector to Suppress Strongly Entangled Content in Text-to-Image Diffusion Models

273

14 Aug 2025

Towards Spatially Consistent Image Generation: On Incorporating Intrinsic Scene Properties into Diffusion Models

189

14 Aug 2025

Images Speak Louder Than Scores: Failure Mode Escape for Enhancing Generative Quality

105

13 Aug 2025

Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

194

13 Aug 2025

Collaborative Face Experts Fusion in Video Generation: Boosting Identity Consistency Across Large Face Poses

238

13 Aug 2025

Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation

157

12 Aug 2025

RefAdGen: High-Fidelity Advertising Image Generation

Yiyun Chen

Weikai Yang

111

12 Aug 2025

S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix

134

11 Aug 2025

X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning

154

11 Aug 2025

Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing

121

11 Aug 2025

MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization

Animesh Jain

Alexandros Stergiou

125

11 Aug 2025

HiMat: DiT-based Ultra-High Resolution SVBRDF Generation

219

09 Aug 2025

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

228

07 Aug 2025

Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

Louie Hong Yao

Nicholas Jarvis

Tianyu Jiang

07 Aug 2025

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

216

07 Aug 2025

A Novel Image Similarity Metric for Scene Composition Structure

246

07 Aug 2025

Multimodal RAG Enhanced Visual Description

127

06 Aug 2025

HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models

Stylianos I. Venieris

VLM

168

06 Aug 2025

StyleTailor: Towards Personalized Fashion Styling via Hierarchical Negative Feedback

208

06 Aug 2025

Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

182

06 Aug 2025

Diffusion Models with Adaptive Negative Sampling Without External Resources

Alakh Desai

Nuno Vasconcelos

DiffM

162

05 Aug 2025

Bias Beyond Demographics: Probing Decision Boundaries in Black-Box LVLMs via Counterfactual VQA

Zaiying Zhao

Toshihiko Yamasaki

VLM

174

05 Aug 2025

SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

Johannes Schusterbauer

Bjorn Ommer

DRL

243

05 Aug 2025

ChartCap: Mitigating Hallucination of Dense Chart Captioning

Junyoung Lim

Jaewoo Ahn

Gunhee Kim

116

05 Aug 2025

VQA support to Arabic Language Learning Educational Tool

Khaled Bachir Delassi

170

05 Aug 2025

StrandDesigner: Towards Practical Strand Generation with Sketch Guidance

03 Aug 2025

Personalized Safety Alignment for Text-to-Image Diffusion Models

195

02 Aug 2025

Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models

135

01 Aug 2025

Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

189

01 Aug 2025

Adversarial-Guided Diffusion for Multimodal LLM Attacks

192

31 Jul 2025

Investigating the Invertibility of Multimodal Latent Spaces: Limitations of Optimization-Based Methods

Siwoo Park

100

30 Jul 2025

MultiEditor: Controllable Multimodal Object Editing for Driving Scenarios Using 3D Gaussian Splatting Priors

254

29 Jul 2025

Trade-offs in Image Generation: How Do Different Dimensions Interact?

160

29 Jul 2025

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

...

265

29 Jul 2025

Multimodal LLMs as Customized Reward Models for Text-to-Image Generation

368

28 Jul 2025

T2I-Copilot: A Training-Free Multi-Agent Text-to-Image System for Enhanced Prompt Interpretation and Interactive Generation

293

28 Jul 2025

Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder

Chao Wu

Zhenyi Wang

Kangxian Xie

Naresh Kumar Devulapally

Vishnu Suresh Lokhande

Mingchen Gao

193

28 Jul 2025

On Explaining Visual Captioning with Hybrid Markov Logic Networks

171

28 Jul 2025

A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction

262

26 Jul 2025

LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences

199

25 Jul 2025

A Survey of Multimodal Hallucination Evaluation and Detection

344

25 Jul 2025

SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning

177

24 Jul 2025

T2VWorldBench: A Benchmark for Evaluating World Knowledge in Text-to-Video Generation

674

24 Jul 2025

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation

257

24 Jul 2025

COT-AD: Cotton Analysis DatasetInternational Conference on Information Photonics (ICIP), 2025

Jaidev Sanjay Khalane

Reuben Shibu Devanesan

Indra Deep Mastan

Subramanian Sankaranarayanan

Pankaj Khanna

Shanmuganathan Raman

115

24 Jul 2025

HarmonPaint: Harmonized Training-Free Diffusion Inpainting

169

22 Jul 2025