Visual Programming for Text-to-Image Generation and Evaluation

24 May 2023

Papers citing "Visual Programming for Text-to-Image Generation and Evaluation"

44 / 44 papers shown

Title
CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback Chenhan Jiang Yihan Zeng Hang Xu Dit-Yan Yeung 44 0 0 28 Apr 2025
TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation Yuheng Feng Jianhui Wang Kun Li Sida Li Tianyu Shi Haoyue Han Miao Zhang Xueqian Wang DiffM 53 0 0 22 Mar 2025
What makes a good metric? Evaluating automatic metrics for text-to-image consistency Candace Ross Melissa Hall Adriana Romero Soriano Adina Williams 88 3 0 18 Dec 2024
Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis Taihang Hu Linxuan Li Joost van de Weijer Hongcheng Gao Fahad Shahbaz Khan Jian Yang Ming-Ming Cheng Kai Wang Yaxing Wang DiffM 43 4 0 11 Nov 2024
Natural Language Inference Improves Compositionality in Vision-Language Models Paola Cascante-Bonilla Yu Hou Yang Trista Cao Hal Daumé III Rachel Rudinger ReLM CoGe VLM 36 3 0 29 Oct 2024
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective Xiangru Zhu Penglei Sun Yaoxian Song Yanghua Xiao Zhixu Li Chengyu Wang Jun Huang Bei Yang Xiaoxiao Xu EGVM 93 1 0 14 Oct 2024
Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models Yuzhou Huang Yiran Qin Shunlin Lu Xintao Wang Rui Huang Ying Shan Ruimao Zhang VGen 32 1 0 21 Aug 2024
Evaluating Numerical Reasoning in Text-to-Image Models Ivana Kajić Olivia Wiles Isabela Albuquerque Matthias Bauer Su Wang Jordi Pont-Tuset Aida Nematzadeh EGVM ReLM 75 0 0 20 Jun 2024
GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation Baiqi Li Zhiqiu Lin Deepak Pathak Jiayao Li Yixin Fei ... Tiffany Ling Xide Xia Pengchuan Zhang Graham Neubig Deva Ramanan EGVM 42 24 0 19 Jun 2024
Re-ReST: Reflection-Reinforced Self-Training for Language Agents Zi-Yi Dou Cheng-Fu Yang Xueqing Wu Kai-Wei Chang Nanyun Peng LRM 81 7 0 03 Jun 2024
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering Juhong Min Shyamal Buch Arsha Nagrani Minsu Cho Cordelia Schmid LRM 34 20 0 09 Apr 2024
Evaluating Text-to-Visual Generation with Image-to-Text Generation Zhiqiu Lin Deepak Pathak Baiqi Li Jiayao Li Xide Xia Graham Neubig Pengchuan Zhang Deva Ramanan EGVM 34 125 0 01 Apr 2024
Improving Text-to-Image Consistency via Automatic Prompt Optimization Oscar Manas Pietro Astolfi Melissa Hall Candace Ross Jack Urbanek Adina Williams Aishwarya Agrawal Adriana Romero Soriano M. Drozdzal 29 26 0 26 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 34 8 0 11 Mar 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 57 39 0 08 Mar 2024
Discriminative Probing and Tuning for Text-to-Image Generation Leigang Qu Wenjie Wang Yongqi Li Hanwang Zhang Liqiang Nie Tat-Seng Chua 31 7 0 07 Mar 2024
Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset Ander Salaberria Gorka Azkune Oier López de Lacalle A. Soroa Eneko Agirre Frank Keller EGVM 19 2 0 01 Mar 2024
SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model Bin Cao Jianhao Yuan Yexin Liu Jian Li Shuyang Sun Jing Liu Bo-Lu Zhao DiffM 22 7 0 28 Feb 2024
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions Akash Ghosh Arkadeep Acharya Sriparna Saha Vinija Jain Aman Chadha VLM 41 23 0 20 Feb 2024
Open-Universe Indoor Scene Generation using LLM Program Synthesis and Uncurated Object Databases Rio Aguina-Kang Maxim Gumin Do Heon Han Stewart Morris Seung Jean Yoo Aditya Ganeshan R. K. Jones Qiuhong Anna Wei Kailiang Fu Daniel E. Ritchie 3DV 37 24 0 05 Feb 2024
ReGAL: Refactoring Programs to Discover Generalizable Abstractions Elias Stengel-Eskin Archiki Prasad Mohit Bansal 18 13 0 29 Jan 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 22 34 0 15 Jan 2024
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents Ke Yang Jiateng Liu John Wu Chaoqi Yang Yi Ren Fung ... Xu Cao Xingyao Wang Yiquan Wang Heng Ji Chengxiang Zhai LLMAG ELM 18 71 0 01 Jan 2024
Rich Human Feedback for Text-to-Image Generation Youwei Liang Junfeng He Gang Li Peizhao Li Arseniy Klimovskiy ... Yiwen Luo Yang Li Kai Kohlhoff Deepak Ramachandran Vidhya Navalpakkam EGVM 9 66 0 15 Dec 2023
See, Say, and Segment: Teaching LMMs to Overcome False Premises Tsung-Han Wu Giscard Biamby David M. Chan Lisa Dunlap Ritwik Gupta Xudong Wang Joseph E. Gonzalez Trevor Darrell VLM MLLM 30 18 0 13 Dec 2023
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment Brian Gordon Yonatan Bitton Yonatan Shafir Roopal Garg Xi Chen Dani Lischinski Daniel Cohen-Or Idan Szpektor 35 11 0 05 Dec 2023
A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics Xiangru Zhu Penglei Sun Chengyu Wang Jingping Liu Zhixu Li Yanghua Xiao Jun Huang CoGe 100 5 0 04 Dec 2023
Recursive Visual Programming Jiaxin Ge Sanjay Subramanian Baifeng Shi Roei Herzig Trevor Darrell 21 4 0 04 Dec 2023
Detailed Human-Centric Text Description-Driven Large Scene Synthesis Gwanghyun Kim Dong un Kang H. Seo Hayeon Kim Se Young Chun 3DV DiffM 14 2 0 30 Nov 2023
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following Yutong Feng Biao Gong Di Chen Yujun Shen Yu Liu Jingren Zhou DiffM 21 43 0 28 Nov 2023
SelfEval: Leveraging the discriminative nature of generative models for evaluation Sai Saketh Rambhatla Ishan Misra EGVM 25 4 0 17 Nov 2023
Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation Jaemin Cho Yushi Hu Roopal Garg Peter Anderson Ranjay Krishna Jason Baldridge Mohit Bansal Jordi Pont-Tuset Su Wang EGVM 22 65 0 27 Oct 2023
Branch-Solve-Merge Improves Large Language Model Evaluation and Generation Swarnadeep Saha Omer Levy Asli Celikyilmaz Mohit Bansal Jason Weston Xian Li MoMe 16 69 0 23 Oct 2023
CLAIR: Evaluating Image Captions with Large Language Models David M. Chan Suzanne Petryk Joseph E. Gonzalez Trevor Darrell John F. Canny 38 19 0 19 Oct 2023
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning Abhaysinh Zala Han Lin Jaemin Cho Mohit Bansal 24 12 0 18 Oct 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning Han Lin Abhaysinh Zala Jaemin Cho Mohit Bansal LM&Ro VGen DiffM 26 74 0 26 Sep 2023
Language Models as Black-Box Optimizers for Vision-Language Models Shihong Liu Zhiqiu Lin Samuel Yu Ryan Lee Tiffany Ling Deepak Pathak Deva Ramanan VLM 22 28 0 12 Sep 2023
A Survey of Diffusion Based Image Generation Models: Issues and Their Solutions Tianyi Zhang Zheng Wang Jin Huang M. M. Tasnim Wei Shi VLM 11 21 0 25 Aug 2023
Grounded Text-to-Image Synthesis with Attention Refocusing Quynh Phung Songwei Ge Jia-Bin Huang DiffM 18 104 0 08 Jun 2023
Revisiting the Role of Language Priors in Vision-Language Models Zhiqiu Lin Xinyue Chen Deepak Pathak Pengchuan Zhang Deva Ramanan VLM 15 22 0 02 Jun 2023
Muse: Text-To-Image Generation via Masked Generative Transformers Huiwen Chang Han Zhang Jarred Barber AJ Maschinot José Lezama ... Kevin Patrick Murphy William T. Freeman Michael Rubinstein Yuanzhen Li Dilip Krishnan DiffM 197 515 0 02 Jan 2023
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 233 341 0 22 Sep 2021
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 169 401 0 10 Sep 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021