v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 1,488 papers shown

Reinforcement Learning for Large Model: A Survey

316

24 Dec 2025

ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

125

04 Dec 2025

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

04 Dec 2025

Refaçade: Editing Object with Given Reference Texture

169

04 Dec 2025

Value Gradient Guidance for Flow Matching Alignment

Zhen Liu

Tim Z. Xiao

Carles Domingo-Enrich

Weiyang Liu

Dinghuai Zhang

04 Dec 2025

I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models

169

04 Dec 2025

Highly Efficient Test-Time Scaling for T2I Diffusion Models with Text Embedding Perturbation

117

03 Dec 2025

GeoVideo: Introducing Geometric Regularization into Video Generation Model

452

03 Dec 2025

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding

112

03 Dec 2025

Culture Affordance Atlas: Reconciling Object Diversity Through Functional Mapping

02 Dec 2025

IC-World: In-Context Generation for Shared World Modeling

01 Dec 2025

Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

316

01 Dec 2025

FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges

240

01 Dec 2025

BioPro: On Difference-Aware Gender Fairness for Vision-Language Models

30 Nov 2025

Minimal neuron ablation triggers catastrophic collapse in the language core of Large Vision-Language Models

Cen Lu

Yung-Chen Tang

Andrea Cavallaro

30 Nov 2025

Multilingual Training-Free Remote Sensing Image Captioning

106

30 Nov 2025

SplatFont3D: Structure-Aware Text-to-3D Artistic Font Generation with Part-Level Style Control

190

29 Nov 2025

FR-TTS: Test-Time Scaling for NTP-based Image Generation with Effective Filling-based Reward Signal

Hang Xu

Linjiang Huang

Feng Zhao

102

29 Nov 2025

Vision Bridge Transformer at Scale

100

28 Nov 2025

GOATex: Geometry & Occlusion-Aware Texturing

28 Nov 2025

InstanceV: Instance-Level Video Generation

120

28 Nov 2025

Guiding Visual Autoregressive Models through Spectrum Weakening

168

28 Nov 2025

From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

27 Nov 2025

Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

27 Nov 2025

AnchorFlow: Training-Free 3D Editing via Latent Anchor-Aligned Flows

157

27 Nov 2025

CameraMaster: Unified Camera Semantic-Parameter Control for Photography Retouching

311

26 Nov 2025

Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation

153

26 Nov 2025

CAHS-Attack: CLIP-Aware Heuristic Search Attack Method for Stable Diffusion

457

26 Nov 2025

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion

Samuele DellÉrba

Andrew D. Bagdanov

176

25 Nov 2025

CREward: A Type-Specific Creativity Reward Model

105

25 Nov 2025

EmoFeedback

^2

: Reinforcement of Continuous Emotional Image Generation via LVLM-based Reward and Textual Feedback

395

25 Nov 2025

Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward

456

25 Nov 2025

Text-guided Controllable Diffusion for Realistic Camouflage Images Generation

198

25 Nov 2025

Beyond Reward Margin: Rethinking and Resolving Likelihood Displacement in Diffusion Models via Video Generation

159

24 Nov 2025

Now You See It, Now You Don't - Instant Concept Erasure for Safe Text-to-Image and Video Generation

263

24 Nov 2025

Towards Robust and Fair Next Visit Diagnosis Prediction under Noisy Clinical Notes with Large Language Models

Heejoon Koo

121

23 Nov 2025

ConsistCompose: Unified Multimodal Layout Control for Image Composition

385

23 Nov 2025

Synthetic Curriculum Reinforces Compositional Text-to-Image Generation

226

23 Nov 2025

MagicWand: A Universal Agent for Generation and Evaluation Aligned with User Preference

23 Nov 2025

Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models

480

23 Nov 2025

$Refracting Reality: Generating Images with Realistic Transparent Objects$

Refracting Reality: Generating Images with Realistic Transparent Objects

166

21 Nov 2025

Counterfactual World Models via Digital Twin-conditioned Video Diffusion

165

21 Nov 2025

RoomPlanner: Explicit Layout Planner for Easier LLM-Driven 3D Room Generation

222

21 Nov 2025

Personalized Reward Modeling for Text-to-Image Generation

153

21 Nov 2025

Diversity Has Always Been There in Your Visual Autoregressive Models

Abdelrahman M. Shaker

Salman Khan

Fahad Shahbaz Khan

S. Li

136

21 Nov 2025

Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

...

225

21 Nov 2025

Physics-Based Benchmarking Metrics for Multimodal Synthetic Images

131

19 Nov 2025

Insert In Style: A Zero-Shot Generative Framework for Harmonious Cross-Domain Object Composition

260

19 Nov 2025

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

246

19 Nov 2025

Distribution Matching Distillation Meets Reinforcement Learning

...

402

17 Nov 2025