What You See is What You Read? Improving Text-Image Alignment Evaluation

17 May 2023

Papers citing "What You See is What You Read? Improving Text-Image Alignment Evaluation"

50 / 62 papers shown

Title
Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation Shivam Duggal Yushi Hu Oscar Michel Aniruddha Kembhavi William T. Freeman Noah A. Smith Ranjay Krishna Antonio Torralba Ali Farhadi Wei-Chiu Ma EGVM ELM 64 0 0 25 Apr 2025
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation Aviv Slobodkin Hagai Taitelbaum Yonatan Bitton Brian Gordon Michal Sokolik ... Almog Gueta Royi Rassin Itay Laish Dani Lischinski Idan Szpektor EGVM VGen 28 0 0 24 Apr 2025
Instruction-augmented Multimodal Alignment for Image-Text and Element Matching Xinli Yue Jianhui Sun Junda Lu Liangchao Yao Fan Xia Tianyi Wang Fengyun Rao Jing Lyu Yuetang Deng 21 0 0 16 Apr 2025
Video-Bench: Human-Aligned Video Generation Benchmark Hui Han Siyuan Li Jiaqi Chen Yiwen Yuan Yuling Wu ... Y. Li J. Zhang Chi Zhang Li Li Yongxin Ni EGVM VGen 65 0 0 07 Apr 2025
Can Text-to-Video Generation help Video-Language Alignment? Luca Zanella Massimiliano Mancini Willi Menapace Sergey Tulyakov Yiming Wang Elisa Ricci DiffM VGen 50 0 0 24 Mar 2025
PARIC: Probabilistic Attention Regularization for Language Guided Image Classification from Pre-trained Vison Language Models Mayank Nautiyal Stela Arranz Gheorghe Kristiana Stefa Li Ju Ida-Maria Sintorn Prashant Singh VLM 47 0 0 14 Mar 2025
FDCT: Frequency-Aware Decomposition and Cross-Modal Token-Alignment for Multi-Sensor Target Classification S. Sami Md Golam Moula Mehedi Hasan Nasser M. Nasrabadi Raghuveer Rao 43 0 0 12 Mar 2025
VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation Hritik Bansal Clark Peng Yonatan Bitton Roman Goldenberg Aditya Grover Kai-Wei Chang EGVM VGen 37 2 0 09 Mar 2025
Focus-N-Fix: Region-Aware Fine-Tuning for Text-to-Image Generation Xiaoying Xing Avinab Saha Junfeng He Susan Hao Paul Vicol ... Sahil Singla Sarah Young Yinxiao Li Feng Yang Deepak Ramachandran DiffM 43 0 0 11 Jan 2025
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation Guanglei Yang Rui Tian Yongqiang Zhang Zhun Zhong Yongqiang Li Wangmeng Zuo 26 0 0 31 Dec 2024
AI-generated Image Quality Assessment in Visual Communication Yu Tian Yixuan Li Baoliang Chen Hanwei Zhu Shiqi Wang Sam Kwong 75 0 0 20 Dec 2024
CAP: Evaluation of Persuasive and Creative Image Generation Aysan Aghazadeh Adriana Kovashka EGVM 85 1 0 10 Dec 2024
Natural Language Inference Improves Compositionality in Vision-Language Models Paola Cascante-Bonilla Yu Hou Yang Trista Cao Hal Daumé III Rachel Rudinger ReLM CoGe VLM 31 3 0 29 Oct 2024
NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates Hexuan Deng Wenxiang Jiao Xuebo Liu Min Zhang Zhaopeng Tu 26 2 0 28 Oct 2024
Offline Evaluation of Set-Based Text-to-Image Generation Negar Arabzadeh Fernando Diaz Junfeng He EGVM 22 0 0 22 Oct 2024
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities Hsin-Ping Huang X. Wang Yonatan Bitton Hagai Taitelbaum Gaurav Singh Tomar ... Xuhui Jia Kelvin Chan Hexiang Hu Yu-Chuan Su Ming Yang EGVM 64 4 0 15 Oct 2024
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao Hangjie Yuan Yujie Wei Shiwei Zhang Yuchao Gu ... Xiang Wang Zhangjie Wu Junhao Zhang Yingya Zhang Mike Zheng Shou DiffM VLM 50 2 0 09 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 21 1 0 08 Oct 2024
NL-Eye: Abductive NLI for Images Mor Ventura Michael Toker Nitay Calderon Zorik Gekhman Yonatan Bitton Roi Reichart 20 1 0 03 Oct 2024
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment Yuheng Li Haotian Liu Mu Cai Yijun Li Eli Shechtman Zhe Lin Yong Jae Lee Krishna Kumar Singh VLM 16 1 0 01 Oct 2024
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension Junzhuo Liu X. Yang Weiwei Li Peng Wang ObjD 31 3 0 23 Sep 2024
Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering Youngsun Lim Hojun Choi Hyunjung Shim HILM EGVM MLLM 25 0 0 19 Sep 2024
Optimizing Resource Consumption in Diffusion Models through Hallucination Early Detection Federico Betti Lorenzo Baraldi Lorenzo Baraldi Rita Cucchiara N. Sebe DiffM 19 0 0 16 Sep 2024
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models Nitzan Bitton-Guetta Aviv Slobodkin Aviya Maimon Eliya Habba Royi Rassin Yonatan Bitton Idan Szpektor Amir Globerson Yuval Elovici ReLM VLM LRM 26 5 0 28 Jul 2024
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation Katherine M. Collins Najoung Kim Yonatan Bitton Verena Rieser Shayegan Omidshafiei ... Gang Li Adrian Weller Junfeng He Deepak Ramachandran Krishnamurthy Dvijotham EGVM 36 3 0 24 Jun 2024
Evaluating Numerical Reasoning in Text-to-Image Models Ivana Kajić Olivia Wiles Isabela Albuquerque Matthias Bauer Su Wang Jordi Pont-Tuset Aida Nematzadeh EGVM ReLM 66 0 0 20 Jun 2024
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation Baiqi Li Zhiqiu Lin Deepak Pathak Jiayao Li Yixin Fei ... Tiffany Ling Xide Xia Pengchuan Zhang Graham Neubig Deva Ramanan EGVM 29 17 0 19 Jun 2024
CUPID: Contextual Understanding of Prompt-conditioned Image Distributions Yayan Zhao Mingwei Li Matthew Berger DiffM 19 1 0 11 Jun 2024
DOCCI: Descriptions of Connected and Contrasting Images Yasumasa Onoe Sunayana Rane Zachary Berger Yonatan Bitton Jaemin Cho ... Zarana Parekh Jordi Pont-Tuset Garrett Tanzer Su Wang Jason Baldridge 23 48 0 30 Apr 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 103 13 0 25 Apr 2024
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction Hang Hua Jing Shi Kushal Kafle Simon Jenni Daoan Zhang John Collomosse Scott D. Cohen Jiebo Luo CoGe VLM 31 9 0 23 Apr 2024
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training Mengzhao Jia Zhihan Zhang W. Yu Fangkai Jiao Meng-Long Jiang VLM ReLM LRM 37 7 0 22 Apr 2024
Evaluating Text-to-Visual Generation with Image-to-Text Generation Zhiqiu Lin Deepak Pathak Baiqi Li Jiayao Li Xide Xia Graham Neubig Pengchuan Zhang Deva Ramanan EGVM 20 85 0 01 Apr 2024
Improving Text-to-Image Consistency via Automatic Prompt Optimization Oscar Manas Pietro Astolfi Melissa Hall Candace Ross Jack Urbanek Adina Williams Aishwarya Agrawal Adriana Romero Soriano M. Drozdzal 21 26 0 26 Mar 2024
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training David Wan Jaemin Cho Elias Stengel-Eskin Mohit Bansal VLM ObjD 40 29 0 04 Mar 2024
CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples Jianrui Zhang Mu Cai Tengyang Xie Yong Jae Lee LRM 24 18 0 20 Feb 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 19 29 0 20 Feb 2024
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization Jisu Nam Heesu Kim Dongjae Lee Siyoon Jin Seungryong Kim Seunggyu Chang DiffM 8 15 0 15 Feb 2024
Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking Ivana Beňová Jana Kosecka Michal Gregor Martin Tamajka Marcel Veselý Marián Simko 13 1 0 29 Jan 2024
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment Brian Gordon Yonatan Bitton Yonatan Shafir Roopal Garg Xi Chen Dani Lischinski Daniel Cohen-Or Idan Szpektor 27 11 0 05 Dec 2023
DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback Jiao Sun Deqing Fu Yushi Hu Su Wang Royi Rassin ... Dana Alon Charles Herrmann Sjoerd van Steenkiste Ranjay Krishna Cyrus Rashtchian EGVM 15 30 0 29 Nov 2023
VideoCon: Robust Video-Language Alignment via Contrast Captions Hritik Bansal Yonatan Bitton Idan Szpektor Kai-Wei Chang Aditya Grover 20 14 0 15 Nov 2023
The Role of Chain-of-Thought in Complex Vision-Language Reasoning Task Yifan Wu Pengchuan Zhang Wenhan Xiong Barlas Oğuz James C. Gee Yixin Nie LRM 16 16 0 15 Nov 2023
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation Jaemin Cho Yushi Hu Roopal Garg Peter Anderson Ranjay Krishna Jason Baldridge Mohit Bansal Jordi Pont-Tuset Su Wang EGVM 17 65 0 27 Oct 2023
CLAIR: Evaluating Image Captions with Large Language Models David M. Chan Suzanne Petryk Joseph E. Gonzalez Trevor Darrell John F. Canny 32 19 0 19 Oct 2023
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models Vishaal Udandarao Max F. Burg Samuel Albanie Matthias Bethge VLM 19 6 0 12 Oct 2023
Feedback-guided Data Synthesis for Imbalanced Classification Reyhane Askari Hemmat Mohammad Pezeshki Florian Bordes M. Drozdzal Adriana Romero Soriano SyDa 8 10 0 29 Sep 2023
A Survey on Image-text Multimodal Models Ruifeng Guo Jingxuan Wei Linzhuang Sun Khai Le-Duc Guiyong Chang Dawei Liu Sibo Zhang Zhengbing Yao Mingjun Xu Liping Bu VLM 21 5 0 23 Sep 2023
MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang MLLM VLM 11 132 0 14 Sep 2023
Evaluation and Enhancement of Semantic Grounding in Large Vision-Language Models Jiaying Lu Jinmeng Rao Kezhen Chen Xiaoyuan Guo Yawen Zhang Baochen Sun Carl Yang Jie Yang 11 9 0 07 Sep 2023