VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

18 April 2022

Papers citing "VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance"

50 / 255 papers shown

Title
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models Tsun-Hsuan Wang Alaa Maalouf Wei Xiao Yutong Ban Alexander Amini Guy Rosman S. Karaman Daniela Rus 11 41 0 26 Oct 2023
Black-Box Training Data Identification in GANs via Detector Networks Lukman Olagoke Salil P. Vadhan Seth Neel 8 0 0 18 Oct 2023
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data Zuxuan Wu Zejia Weng Wujian Peng Xitong Yang Ang Li Larry S. Davis Yu-Gang Jiang CLIP VLM 26 21 0 08 Oct 2023
Generating 3D Brain Tumor Regions in MRI using Vector-Quantization Generative Adversarial Networks Meng Zhou Matthias W. Wagner U. Tabori C. Hawkins B. Ertl-Wagner Farzad Khalvati MedIm 6 5 0 02 Oct 2023
Guiding Instruction-based Image Editing via Multimodal Large Language Models Johannes Frey Wenze Hu Xianzhi Du William Yang Wang Yinfei Yang Zhe Gan 22 86 0 29 Sep 2023
KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing Jiarui Yao Yifan Liu Simon S. Du Shifeng Chen DiffM 6 24 0 28 Sep 2023
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation Guy Yariv Itai Gat Sagie Benaim Lior Wolf Idan Schwartz Yossi Adi DiffM VGen 21 16 0 28 Sep 2023
Guide Your Agent with Adaptive Multimodal Rewards Changyeon Kim Younggyo Seo Hao Liu Lisa Lee Jinwoo Shin Honglak Lee Kimin Lee 8 7 0 19 Sep 2023
Market-GAN: Adding Control to Financial Market Data Generation with Semantic Context Haochong Xia Shuo Sun Xinrun Wang Bo An AIFin 9 2 0 14 Sep 2023
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation Xingchao Liu Xiwen Zhang Jianzhu Ma Jian Peng Qiang Liu 71 92 0 12 Sep 2023
MoEController: Instruction-based Arbitrary Image Manipulation with Mixture-of-Expert Controllers Sijia Li Chen Chen H. Lu DiffM 43 9 0 08 Sep 2023
Generating Realistic Images from In-the-wild Sounds Taegyeong Lee Jeonghun Kang Hyeonyu Kim Taehwan Kim DiffM 16 1 0 05 Sep 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation Xin Li Wenqing Chu Ye Wu Weihang Yuan Fanglong Liu Qi Zhang Fu Li Haocheng Feng Errui Ding Jingdong Wang VGen 24 50 0 01 Sep 2023
DiffCloth: Diffusion Based Garment Synthesis and Manipulation via Structural Cross-modal Semantic Alignment Xujie Zhang Binbin Yang Michael C. Kampffmeyer Wenqing Zhang Shiyue Zhang Guansong Lu Liang Lin Hang Xu Xiaodan Liang DiffM 15 4 0 22 Aug 2023
Backdooring Textual Inversion for Concept Censorship Yutong Wu Jiehan Zhang Florian Kerschbaum Tianwei Zhang DiffM 16 5 0 21 Aug 2023
Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation Charles OÑeill Y. Ting 丁 I. Ciucă Jack Miller Thang Bui SyDa 16 1 0 15 Aug 2023
SGDiff: A Style Guided Diffusion Model for Fashion Synthesis Zheng Sun Yanghong Zhou Honghong He P. Y. Mok DiffM 18 22 0 15 Aug 2023
Follow Anything: Open-set detection, tracking, and following in real-time Alaa Maalouf Ninad Jadhav Krishna Murthy Jatavallabhula Makram Chahine Daniel M.Vogt Robert J. Wood Antonio Torralba Daniela Rus 6 23 0 10 Aug 2023
PromptPaint: Steering Text-to-Image Generation Through Paint Medium-like Interactions John Joon Young Chung Eytan Adar DiffM 15 55 0 09 Aug 2023
Semantic Communications for Artificial Intelligence Generated Content (AIGC) Toward Effective Content Creation Guangyuan Liu Hongyang Du Dusit Niyato Jiawen Kang Zehui Xiong Dong In Kim Xuemin X. Shen 14 25 0 09 Aug 2023
Text-Guided Synthesis of Eulerian Cinemagraphs Aniruddha Mahapatra Aliaksandr Siarohin Hsin-Ying Lee Sergey Tulyakov Junchen Zhu DiffM VGen 8 19 0 06 Jul 2023
JourneyDB: A Benchmark for Generative Image Understanding Keqiang Sun Junting Pan Yuying Ge Hao Li Haodong Duan ... Yi Wang Jifeng Dai Yu Qiao Limin Wang Hongsheng Li 20 100 0 03 Jul 2023
Stay on topic with Classifier-Free Guidance Guillaume Sanchez Honglu Fan Alexander Spangher Elad Levi Pawan Sasanka Ammanamanchi Stella Biderman 3DV 25 45 0 30 Jun 2023
CLIPAG: Towards Generator-Free Text-to-Image Generation Roy Ganz Michael Elad VLM 10 7 0 29 Jun 2023
DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data Jin Zhu Huimin Ma Jiansheng Chen Jian Yuan DiffM 11 10 0 25 Jun 2023
Align, Adapt and Inject: Sound-guided Unified Image Generation Yue Yang Kaipeng Zhang Yuying Ge Wenqi Shao Zeyue Xue Yu Qiao Ping Luo DiffM 8 4 0 20 Jun 2023
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang Lingbo Mo Wenhu Chen Huan Sun Yu-Chuan Su EGVM 88 235 0 16 Jun 2023
The Big Data Myth: Using Diffusion Models for Dataset Generation to Train Deep Detection Models Roy Voetman Maya Aghaei K. Dijkstra DiffM 11 5 0 16 Jun 2023
GeneCIS: A Benchmark for General Conditional Image Similarity S. Vaze Nicolas Carion Ishan Misra VLM DiffM 14 12 0 13 Jun 2023
InstructP2P: Learning to Edit 3D Point Clouds with Text Instructions Jiale Xu Xintao Wang Yannan Cao Weihao Cheng Ying Shan Shenghua Gao DiffM 13 10 0 12 Jun 2023
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance Gihyun Kwon Jong Chul Ye DiffM 18 2 0 07 Jun 2023
ViCo: Plug-and-play Visual Condition for Personalized Text-to-image Generation Shaozhe Hao Kai Han Shihao Zhao Kwan-Yee Kenneth Wong 18 5 0 01 Jun 2023
Learning Disentangled Prompts for Compositional Image Synthesis Kihyuk Sohn Albert Eaton Shaw Yuan Hao Han Zhang Luisa F. Polanía Huiwen Chang Lu Jiang Irfan Essa VLM 9 4 0 01 Jun 2023
AlteredAvatar: Stylizing Dynamic 3D Avatars with Fast Style Adaptation Thu Nguyen-Phuoc Gabriel Schwartz Yuting Ye Stephen Lombardi Lei Xiao 14 5 0 30 May 2023
Translation-Enhanced Multilingual Text-to-Image Generation Yaoyiran Li Ching-Yun Chang Stephen Rawls Ivan Vulić Anna Korhonen 6 8 0 30 May 2023
LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images Viraj Prabhu Sriram Yenamandra Prithvijit Chattopadhyay Judy Hoffman 11 36 0 30 May 2023
Photoswap: Personalized Subject Swapping in Images Jing Gu Yilin Wang Nanxuan Zhao Tsu-jui Fu Wei Xiong ... Zhifei Zhang He Zhang Jianming Zhang Hyun-Sun Jung Xin Eric Wang DiffM 13 23 0 29 May 2023
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models Weijian Luo Tianyang Hu Shifeng Zhang Jiacheng Sun Zhenguo Li Zhihua Zhang 19 106 0 29 May 2023
Break-A-Scene: Extracting Multiple Concepts from a Single Image Omri Avrahami Kfir Aberman Ohad Fried Daniel Cohen-Or Dani Lischinski VLM DiffM 12 165 0 25 May 2023
ProSpect: Prompt Spectrum for Attribute-Aware Personalization of Diffusion Models Yu-xin Zhang Weiming Dong Fan Tang Nisha Huang Haibin Huang Chongyang Ma Tong-Yee Lee Oliver Deussen Changsheng Xu DiffM 12 75 0 25 May 2023
Prompt Evolution for Generative AI: A Classifier-Guided Approach Melvin Wong Yew-Soon Ong Abhishek Gupta K. Bali Caishun Chen 8 14 0 24 May 2023
In-Context Impersonation Reveals Large Language Models' Strengths and Biases Leonard Salewski Stephan Alaniz Isabel Rio-Torto Eric Schulz Zeynep Akata 8 145 0 24 May 2023
Parts of Speech-Grounded Subspaces in Vision-Language Models James Oldfield Christos Tzelepis Yannis Panagakis M. Nicolaou Ioannis Patras 11 7 0 23 May 2023
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection Shyamgopal Karthik Karsten Roth Massimiliano Mancini Zeynep Akata 16 11 0 22 May 2023
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation Guy Yariv Itai Gat Lior Wolf Yossi Adi Idan Schwartz DiffM 12 20 0 22 May 2023
Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models Wenkai Dong Song Xue Xiaoyue Duan Shumin Han DiffM 21 30 0 08 May 2023
Catch Missing Details: Image Reconstruction with Frequency Augmented Variational Autoencoder Xinmiao Lin Yikang Li Jenhao Hsiao C. Ho Yu Kong 74 16 0 04 May 2023
Controllable Image Generation via Collage Representations Arantxa Casanova Marlene Careil Adriana Romero Soriano Christopher Pal Jakob Verbeek M. Drozdzal DiffM 24 3 0 26 Apr 2023
Emergent and Predictable Memorization in Large Language Models Stella Biderman USVSN Sai Prashanth Lintang Sutawika Hailey Schoelkopf Quentin G. Anthony Shivanshu Purohit Edward Raf 16 117 0 21 Apr 2023
Text-guided Image-and-Shape Editing and Generation: A Short Survey Cheng-Kang Ted Chao Y. Gingold 12 3 0 18 Apr 2023