Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,735 papers shown

Title
Unveiling Transformers with LEGO: a synthetic reasoning task Yi Zhang A. Backurs Sébastien Bubeck Ronen Eldan Suriya Gunasekar Tal Wagner LRM 17 85 0 09 Jun 2022
Neural Diffusion Processes Vincent Dutordoir Alan D. Saul Zoubin Ghahramani F. Simpson DiffM 36 37 0 08 Jun 2022
Autoregressive Perturbations for Data Poisoning Pedro Sandoval-Segura Vasu Singla Jonas Geiping Micah Goldblum Tom Goldstein David Jacobs AAML 17 39 0 08 Jun 2022
Intra-agent speech permits zero-shot task acquisition Chen Yan Federico Carnevale Petko Georgiev Adam Santoro Aurelia Guy Alistair Muldal Chia-Chun Hung Josh Abramson Timothy Lillicrap Greg Wayne LM&Ro 28 9 0 07 Jun 2022
Blended Latent Diffusion Omri Avrahami Ohad Fried Dani Lischinski DiffM 27 368 0 06 Jun 2022
Diffusion-GAN: Training GANs with Diffusion Zhendong Wang Huangjie Zheng Pengcheng He Weizhu Chen Mingyuan Zhou DiffM 16 150 0 05 Jun 2022
Compositional Visual Generation with Composable Diffusion Models Nan Liu Shuang Li Yilun Du Antonio Torralba J. Tenenbaum DiffM CoGe 18 494 0 03 Jun 2022
Language and Culture Internalisation for Human-Like Autotelic AI Cédric Colas Tristan Karch Clément Moulin-Frier Pierre-Yves Oudeyer LM&Ro 17 24 0 02 Jun 2022
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps Cheng Lu Yuhao Zhou Fan Bao Jianfei Chen Chongxuan Li Jun Zhu DiffM 14 1,329 0 02 Jun 2022
When happy accidents spark creativity: Bringing collaborative speculation to life with generative AI Ziv Epstein Hope Schroeder Dava Newman 12 20 0 01 Jun 2022
DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder Jie Shi Chenfei Wu Jian Liang Xiang Liu Nan Duan DiffM 4 25 0 01 Jun 2022
Elucidating the Design Space of Diffusion-Based Generative Models Tero Karras M. Aittala Timo Aila S. Laine DiffM 25 1,818 0 01 Jun 2022
Discovering the Hidden Vocabulary of DALLE-2 Giannis Daras A. Dimakis 107 64 0 01 Jun 2022
Improved Vector Quantized Diffusion Models Zhicong Tang Shuyang Gu Jianmin Bao Dong Chen Fang Wen DiffM 173 63 0 31 May 2022
Few-Shot Diffusion Models Giorgio Giannone Didrik Nielsen Ole Winther DiffM 165 49 0 30 May 2022
Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data Sungwon Kim Heeseung Kim Sung-Hoon Yoon DiffM 188 52 0 30 May 2022
BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis Yichong Leng Zehua Chen Junliang Guo Haohe Liu Jiawei Chen ... Lei He Xiang-Yang Li Tao Qin Sheng Zhao Tie-Yan Liu DiffM 45 58 0 30 May 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 235 556 0 29 May 2022
CyCLIP: Cyclic Contrastive Language-Image Pretraining Shashank Goel Hritik Bansal S. Bhatia Ryan A. Rossi Vishwa Vinay Aditya Grover CLIP VLM 166 131 0 28 May 2022
Diffusion-LM Improves Controllable Text Generation Xiang Lisa Li John Thickstun Ishaan Gulrajani Percy Liang Tatsunori B. Hashimoto AI4CE 163 768 0 27 May 2022
Multimodal Masked Autoencoders Learn Transferable Representations Xinyang Geng Hao Liu Lisa Lee Dale Schuurams Sergey Levine Pieter Abbeel 24 113 0 27 May 2022
Video2StyleGAN: Disentangling Local and Global Variations in a Video Rameen Abdal Peihao Zhu Niloy J. Mitra Peter Wonka VGen 17 7 0 27 May 2022
Pretraining is All You Need for Image-to-Image Translation Tengfei Wang Ting Zhang Bo Zhang Hao Ouyang Dong Chen Qifeng Chen Fang Wen DiffM 176 177 0 25 May 2022
Gradient-Based Constrained Sampling from Language Models Sachin Kumar Biswajit Paria Yulia Tsvetkov BDL 28 53 0 25 May 2022
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections Chenliang Li Haiyang Xu Junfeng Tian Wei Wang Ming Yan ... Ji Zhang Songfang Huang Feiran Huang Jingren Zhou Luo Si VLM MLLM 20 210 0 24 May 2022
Semi-Parametric Inducing Point Networks and Neural Processes R. Rastogi Yair Schiff Alon Hacohen Zhaozhi Li I-Hsiang Lee Yuntian Deng M. Sabuncu Volodymyr Kuleshov 3DPC 8 6 0 24 May 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 29 5,743 0 23 May 2022
Evidence for Hypodescent in Visual Semantic AI Robert Wolfe M. Banaji Aylin Caliskan VLM 19 35 0 22 May 2022
Diverse Weight Averaging for Out-of-Distribution Generalization Alexandre Ramé Matthieu Kirchmeyer Thibaud Rahier A. Rakotomamonjy Patrick Gallinari Matthieu Cord OOD 186 128 0 19 May 2022
Deterministic training of generative autoencoders using invertible layers Gianluigi Silvestri Daan Roos L. Ambrogioni TPM 6 2 0 19 May 2022
Adversarial random forests for density estimation and generative modeling David S. Watson Kristin Blesch Jan Kapar Marvin N. Wright GAN 49 19 0 19 May 2022
What company do words keep? Revisiting the distributional semantics of J.R. Firth & Zellig Harris Mikael Brunila J. LaViolette 32 20 0 16 May 2022
Diffusion Models for Adversarial Purification Weili Nie Brandon Guo Yujia Huang Chaowei Xiao Arash Vahdat Anima Anandkumar WIGM 184 410 0 16 May 2022
The Mechanism of Prediction Head in Non-contrastive Self-supervised Learning Zixin Wen Yuanzhi Li SSL 19 34 0 12 May 2022
CCMB: A Large-scale Chinese Cross-modal Benchmark Chunyu Xie Heng Cai Jincheng Li Fanjing Kong Xiaoyu Wu ... Xiangzheng Zhang Dawei Leng Baochang Zhang Xiangyang Ji Yafeng Deng MLLM VLM 6 8 0 08 May 2022
BlobGAN: Spatially Disentangled Scene Representations Dave Epstein Taesung Park Richard Y. Zhang Eli Shechtman Alexei A. Efros GAN SSL OCL 16 42 0 05 May 2022
Language Models Can See: Plugging Visual Controls in Text Generation Yixuan Su Tian Lan Yahui Liu Fangyu Liu Dani Yogatama Yan Wang Lingpeng Kong Nigel Collier VLM MLLM 40 91 0 05 May 2022
A Computational Inflection for Scientific Discovery Tom Hope Doug Downey Oren Etzioni Daniel S. Weld Eric Horvitz AI4CE 8 32 0 04 May 2022
End-to-End Visual Editing with a Generatively Pre-Trained Artist A. Brown Cheng-Yang Fu Omkar M. Parkhi Tamara L. Berg Andrea Vedaldi DiffM 9 8 0 03 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 22 2,308 0 29 Apr 2022
Fast Sampling of Diffusion Models with Exponential Integrator Qinsheng Zhang Yongxin Chen DiffM 9 411 0 29 Apr 2022
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers Ming Ding Wendi Zheng Wenyi Hong Jie Tang VLM 13 321 0 28 Apr 2022
Can deep learning match the efficiency of human visual long-term memory in storing object details? Emin Orhan VLM OCL 16 0 0 27 Apr 2022
An Overview of Recent Work in Media Forensics: Methods and Threats Kratika Bhagtani A. Yadav Emily R. Bartusiak Ziyue Xiang Ruiting Shao Sriram Baireddy Edward J. Delp AAML 36 24 0 26 Apr 2022
A very preliminary analysis of DALL-E 2 G. Marcus E. Davis S. Aaronson 8 133 0 25 Apr 2022
Semi-Parametric Neural Image Synthesis A. Blattmann Robin Rombach Kaan Oktay Jonas Muller Bjorn Ommer DiffM 18 27 0 25 Apr 2022
Translation between Molecules and Natural Language Carl N. Edwards T. Lai Kevin Ros Garrett Honke Kyunghyun Cho Heng Ji 14 155 0 25 Apr 2022
A Survey on Non-Autoregressive Generation for Neural Machine Translation and Beyond Yisheng Xiao Lijun Wu Junliang Guo Juntao Li M. Zhang Tao Qin Tie-Yan Liu 3DV MedIm AI4CE 19 81 0 20 Apr 2022
A Taxonomy of Prompt Modifiers for Text-To-Image Generation J. Oppenlaender 15 102 0 20 Apr 2022
Opal: Multimodal Image Generation for News Illustration Vivian Liu Han Qiao Lydia B. Chilton 6 98 0 19 Apr 2022