v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 1,481 papers shown

Title
Beyond Randomness: Understand the Order of the Noise in Diffusion Song Yan Min Li Bi Xinliang J. Yang Yusen Zhang Guanye Xiong Yunwei Lan Tao Zhang Wei Zhai Zheng-jun Zha DiffM 276 0 0 11 Nov 2025
Inference-Time Scaling of Diffusion Models for Infrared Data Generation Kai A. Horstmann Maxim Clouser Kia Khezeli DiffM 88 0 0 10 Nov 2025
Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance Kwanyoung Kim DiffM 178 0 0 10 Nov 2025
Test-Time Iterative Error Correction for Efficient Diffusion Models Yunshan Zhong Yanwei Qi Yuxin Zhang 157 0 0 09 Nov 2025
Culture in Action: Evaluating Text-to-Image Models through Social Activities Sina Malakouti Boqing Gong Adriana Kovashka EGVM VLM 342 0 0 07 Nov 2025
Tortoise and Hare Guidance: Accelerating Diffusion Model Inference with Multirate Integration Yunghee Lee Byeonghyun Pak Junwha Hong Hoseong Kim 200 0 0 06 Nov 2025
Dynamic Jointly Batch Selection for Data Efficient Machine Translation Fine-Tuning Mohammad Amin Ghanizadeh Mohammad Javad Dousti 88 0 0 06 Nov 2025
Seeing What You Say: Expressive Image Generation from Speech Jiyoung Lee S. Park Sanghyuk Chun Soo-Whan Chung DiffM VGen 225 1 0 05 Nov 2025
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo ELM 128 0 0 04 Nov 2025
TAUE: Training-free Noise Transplant and Cultivation Diffusion Model Daichi Nagai Ryugo Morita Shunsuke Kitada Hitoshi Iyatomi DiffM 140 0 0 04 Nov 2025
Effective Test-Time Scaling of Discrete Diffusion through Iterative Refinement Sanghyun Lee Sunwoo Kim Seungryong Kim Jongho Park D. Park 72 1 0 04 Nov 2025
Web-Scale Collection of Video Data for 4D Animal Reconstruction Brian Nlong Zhao Jiajun Wu Shangzhe Wu 112 1 0 03 Nov 2025
EraseFlow: Learning Concept Erasure Policies via GFlowNet-Driven Alignment Abhiram Kusumba Maitreya Patel Kyle Min Changhoon Kim Chitta Baral Yezhou Yang MU 514 1 0 02 Nov 2025
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings Zhibin Lan Liqiang Niu Fandong Meng Jie Zhou Jinsong Su MLLM LRM 194 0 0 01 Nov 2025
Rethinking Robust Adversarial Concept Erasure in Diffusion Models Qinghong Yin Yu Tian Y. Zhang Xiang Chen X. R. Zhang Xueming Li Yue Zhan DiffM 151 0 0 31 Oct 2025
Generating Accurate and Detailed Captions for High-Resolution Images Hankyeol Lee Gawon Seo Kyounggyu Lee Dogun Kim Kyungwoo Song Jiyoung Jung MLLM VLM 193 0 0 31 Oct 2025
LoCoT2V-Bench: A Benchmark for Long-Form and Complex Text-to-Video Generation Xiangqing Zheng Chengyue Wu Kehai Chen Min Zhang DiffM VGen 146 0 0 30 Oct 2025
ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts Jinho Choi Hyesu Lim Steffen Schneider Jaegul Choo 136 0 0 30 Oct 2025
STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization Marco Federici Riccardo Del Chiaro Boris van Breugel Paul N. Whatmough Markus Nagel MQ 144 0 0 30 Oct 2025
Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation Zhi-Kai Chen Jun-Peng Jiang Han-Jia Ye De-Chuan Zhan 108 1 0 29 Oct 2025
DiagramEval: Evaluating LLM-Generated Diagrams via Graphs Chumeng Liang Jiaxuan You 136 1 0 29 Oct 2025
Diffusion Adaptive Text Embedding for Text-to-Image Diffusion Models Byeonghu Na Minsang Park Gyuwon Sim DongHyeok Shin Heesun Bae Mina Kang Se Jung Kwon Wanmo Kang Il-Chul Moon 199 1 0 28 Oct 2025
Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models Byeonghu Na Mina Kang Jiseok Kwak Minsang Park Jiwoo Shin SeJoon Jun Gayoung Lee Jin-Hwa Kim Il-Chul Moon 200 0 0 28 Oct 2025
$M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark$ M $^{3}$ T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark Huixuan Zhang Xiaojun Wan VLM 238 0 0 27 Oct 2025
FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment Zahraa Al Sahili Maryam Fetanat Maimuna Nowaz Ioannis Patras Matthew Purver EGVM VLM 457 0 0 26 Oct 2025
GeoDiffusion: A Training-Free Framework for Accurate 3D Geometric Conditioning in Image Generation Phillip Mueller Talip Uenlue Sebastian Schmidt Marcel Kollovieh Jiajie Fan Stephan Guennemann Lars Mikelsons 88 0 0 25 Oct 2025
Efficient Utility-Preserving Machine Unlearning with Implicit Gradient Surgery Shiji Zhou Tianbai Yu Zhi Zhang Heng Chang Xiao Zhou Dong Wu Han Zhao MU 217 0 0 25 Oct 2025
FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models Zihao Fu Ryan Brown Shun Shao Kai Rawal Eoin Delaney Chris Russell 100 1 0 24 Oct 2025
Towards a Golden Classifier-Free Guidance Path via Foresight Fixed Point Iterations Kaibo Wang Jianda Mao Tong Wu Yang Xiang 112 0 0 24 Oct 2025
StableSketcher: Enhancing Diffusion Model for Pixel-based Sketch Generation via Visual Question Answering Feedback Jiho Park Sieun Choi Jaeyoon Seo Jihie Kim DiffM 109 0 0 23 Oct 2025
AccuQuant: Simulating Multiple Denoising Steps for Quantizing Diffusion Models Seunghoon Lee Jeongwoo Choi Byunggwan Son Jaehyeon Moon Jeimin Jeon Bumsub Ham DiffM MQ 200 0 0 23 Oct 2025
DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal 120 1 0 23 Oct 2025
The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models Xiaofeng Zhang Aaron Courville M. Drozdzal Adriana Romero Soriano DiffM 164 1 0 22 Oct 2025
Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models Huichan Seo Sieun Choi Minki Hong Yi Zhou Junseo Kim ... Naome A. Etori Mehul Agarwal Zhixuan Liu Jihie Kim Jean Oh EGVM 166 0 0 22 Oct 2025
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation Nobline Yoo Olga Russakovsky Ye Zhu 76 0 0 22 Oct 2025
Can They Dixit? Yes they Can! Dixit as a Playground for Multimodal Language Model Capabilities Nishant Balepur Dang Nguyen Dayeon Ki 120 0 0 22 Oct 2025
PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions Amith Ananthram Elias Stengel-Eskin Lorena A. Bradford Julia Demarest Adam Purvis Keith Krut Robert Stein Rina Elster Pantalony Mohit Bansal Kathleen McKeown 88 0 0 21 Oct 2025
ImageGem: In-the-wild Generative Image Interaction Dataset for Generative Model Personalization Yuanhe Guo Linxi Xie Zhuoran Chen Kangrui Yu Ryan Po Guandao Yang Gordon Wetztein Hongyi Wen VLM 64 0 0 21 Oct 2025
From Competition to Synergy: Unlocking Reinforcement Learning for Subject-Driven Image Generation Ziwei Huang Ying Shu Hao Fang Quanyu Long Wenya Wang Qiushi Guo Tiezheng Ge Yaoyao Yu EGVM 154 0 0 21 Oct 2025
ShapeCraft: LLM Agents for Structured, Textured and Interactive 3D Modeling Shuyuan Zhang Chenhan Jiang Zuoou Li Jiankang Deng 104 0 0 20 Oct 2025
From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models Zefan Cai Haoyi Qiu Haozhe Zhao Ke Wan Jiachen Li Jiuxiang Gu Wen Xiao Nanyun Peng Junjie Hu EGVM VGen 181 0 0 20 Oct 2025
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling Erik Riise Mehmet Onurcan Kaya Dim P. Papadopoulos 271 0 0 19 Oct 2025
Training-free Online Video Step Grounding Luca Zanella Massimiliano Mancini Yiming Wang Alessio Tonioni Elisa Ricci 104 0 0 19 Oct 2025
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer Sayan Deb Sarkar Sinisa Stekovic Vincent Lepetit Iro Armeni DiffM 3DH 181 0 0 17 Oct 2025
BLIP3o-NEXT: Next Frontier of Native Image Generation Jiuhai Chen Le Xue Zhiyang Xu Xichen Pan Shusheng Yang ... Tianyi Zhou Junnan Li Silvio Savarese Caiming Xiong Ran Xu 105 11 0 17 Oct 2025
Cost Savings from Automatic Quality Assessment of Generated Images Xavier Giró-i-Nieto Nefeli Andreou Anqi Liang Manel Baradad Francesc Moreno-Noguer Aleix M. Martinez 222 0 0 17 Oct 2025
VISTA: A Test-Time Self-Improving Video Generation Agent Do Xuan Long Xingchen Wan Hootan Nakhost Chen-Yu Lee Tomas Pfister Sercan Ö. Arık VGen TTA 218 3 0 17 Oct 2025
DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation Yu Zhou Sohyun An Haikang Deng Da Yin Clark Peng Cho-Jui Hsieh Kai-Wei Chang Nanyun Peng VLM 132 1 0 16 Oct 2025
Consistent text-to-image generation via scene de-contextualization Song Tang Peihao Gong Kunyu Li Kai Guo Boyu Wang Mao Ye Jianwei Zhang X. Zhu DiffM 108 0 0 16 Oct 2025
Adapting Self-Supervised Representations as a Latent Space for Efficient Generation Ming Gui Johannes Schusterbauer Timy Phan Felix Krause J. Susskind Miguel Angel Bautista Bjorn Ommer 189 1 0 16 Oct 2025

All Papers

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"