v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 1,489 papers shown

Cost Savings from Automatic Quality Assessment of Generated Images

Francesc Moreno-Noguer

Aleix M. Martinez

256

17 Oct 2025

BLIP3o-NEXT: Next Frontier of Native Image Generation

...

113

17 Oct 2025

Adapting Self-Supervised Representations as a Latent Space for Efficient Generation

Ming Gui

Johannes Schusterbauer

Timy Phan

Felix Krause

J. Susskind

Miguel Angel Bautista

Bjorn Ommer

201

16 Oct 2025

Consistent text-to-image generation via scene de-contextualization

126

16 Oct 2025

LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models

339

16 Oct 2025

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

147

16 Oct 2025

NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks

203

16 Oct 2025

VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

171

15 Oct 2025

Efficient Few-Shot Learning in Remote Sensing: Fusing Vision and Vision-Language Models

Jia Yun Chua

Argyrios Zolotas

Miguel Arana-Catania

15 Oct 2025

Counting Hallucinations in Diffusion Models

295

15 Oct 2025

FlashWorld: High-quality 3D Scene Generation within Seconds

161

15 Oct 2025

Unifying Vision-Language Latents for Zero-label Image Caption Enhancement

14 Oct 2025

VIDMP3: Video Editing by Representing Motion with Pose and Position Priors

130

14 Oct 2025

Template-Based Text-to-Image Alignment for Language Accessibility: A Study on Visualizing Text Simplifications

Belkiss Souayed

Sarah Ebling

Yingqiang Gao

13 Oct 2025

Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection

13 Oct 2025

COCO-Tree: Compositional Hierarchical Concept Trees for Enhanced Reasoning in Vision Language Models

184

13 Oct 2025

InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models

...

190

13 Oct 2025

OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment

...

140

12 Oct 2025

Image-to-Video Transfer Learning based on Image-Language Foundation Models: A Comprehensive Survey

151

12 Oct 2025

CoIDO: Efficient Data Selection for Visual Instruction Tuning via Coupled Importance-Diversity Optimization

129

11 Oct 2025

Few-shot multi-token DreamBooth with LoRa for style-consistent character generation

104

10 Oct 2025

PhyDAE: Physics-Guided Degradation-Adaptive Experts for All-in-One Remote Sensing Image Restoration

101

09 Oct 2025

FreqCa: Accelerating Diffusion Models via Frequency-Aware Caching

...

105

09 Oct 2025

One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting

520

09 Oct 2025

Beyond Textual CoT: Interleaved Text-Image Chains with Deep Confidence Reasoning for Image Editing

...

183

09 Oct 2025

PickStyle: Video-to-Video Style Transfer with Context-Style Adapters

08 Oct 2025

VUGEN: Visual Understanding priors for GENeration

140

08 Oct 2025

GenPilot: A Multi-Agent System for Test-Time Prompt Optimization in Image Generation

08 Oct 2025

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

289

08 Oct 2025

Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation

132

08 Oct 2025

LASER: An LLM-based ASR Scoring and Evaluation Rubric

Amruta Parulekar

Preethi Jyothi

112

08 Oct 2025

Mitigating Surgical Data Imbalance with Dual-Prediction Video Diffusion Model

Danush Kumar Venkatesh

Adam Schmidt

Muhammad Abdullah Jamal

Omid Mohareri

VGen MedIm

144

07 Oct 2025

Teamwork: Collaborative Diffusion with Low-rank Coordination and Adaptation

Sam Sartor

Pieter Peers

DiffM

160

07 Oct 2025

Uncertainty in Machine Learning

Hans Weytjens

Wouter Verbeke

259

07 Oct 2025

Riddled basin geometry sets fundamental limits to predictability and reproducibility in deep learning

Andrew Ly

Pulin Gong

AI4CE

187

07 Oct 2025

Unsupervised Active Learning via Natural Feature Progressive Framework

Yuxi Liu

Catherine Lalman

Yimin Yang

150

06 Oct 2025

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

146

06 Oct 2025

Aligning Perception, Reasoning, Modeling and Interaction: A Survey on Physical AI

...

378

06 Oct 2025

Beyond the Seen: Bounded Distribution Estimation for Open-Vocabulary Learning

164

06 Oct 2025

ObCLIP: Oblivious CLoud-Device Hybrid Image Generation with Privacy Preservation

169

05 Oct 2025

Let Features Decide Their Own Solvers: Hybrid Feature Caching for Diffusion Transformers

153

05 Oct 2025

Activation Steering with a Feedback Controller

192

05 Oct 2025

WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning

182

05 Oct 2025

Diverse Text-to-Image Generation via Contrastive Noise Optimization

Byungjun Kim

Soobin Um

Jong Chul Ye

164

04 Oct 2025

OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows

208

03 Oct 2025

Smart-GRPO: Smartly Sampling Noise for Efficient RL of Flow-Matching Models

Benjamin Yu

Jackie Liu

Justin Cui

133

03 Oct 2025

Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models

03 Oct 2025

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

179

03 Oct 2025

TIT-Score: Evaluating Long-Prompt Based Text-to-Image Alignment via Text-to-Image-to-Text Consistency

152

03 Oct 2025

PEO: Training-Free Aesthetic Quality Enhancement in Pre-Trained Text-to-Image Diffusion Models with Prompt Embedding Optimization

Hovhannes Margaryan

Bo Wan

Tinne Tuytelaars

282

02 Oct 2025