Hierarchical Text-Conditional Image Generation with CLIP Latents

13 April 2022

Papers citing "Hierarchical Text-Conditional Image Generation with CLIP Latents"

50 / 4,735 papers shown

Title
DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation Chen Chen Rui Qian Wenze Hu Tsu-jui Fu Jialing Tong ... Lezhi Li Bowen Zhang A. Schwing Wei Liu Y. Yang 45 0 0 13 Mar 2025
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation Qi Lv Hao Li Xiang Deng Rui Shao Yinchuan Li Jianye Hao Longxiang Gao Michael Yu Wang Liqiang Nie 38 0 0 13 Mar 2025
AudioX: Diffusion Transformer for Anything-to-Audio Generation Zeyue Tian Yizhu Jin Zhaoyang Liu Ruibin Yuan Xu Tan Qifeng Chen Wei Xue Y. Guo 65 3 0 13 Mar 2025
PromptMap: An Alternative Interaction Style for AI-Based Image Generation Krzysztof Adamkiewicz Paweł W. Woźniak Julia Dominiak Andrzej Romanowski Jakob Karolus Stanislav Frolov 53 1 0 12 Mar 2025
Training Data Provenance Verification: Did Your Model Use Synthetic Data from My Generative Model for Training? Yuechen Xie Jie Song Huiqiong Wang Mingli Song 37 0 0 12 Mar 2025
InteractEdit: Zero-Shot Editing of Human-Object Interactions in Images Jiun Tian Hoe Weipeng Hu Wei Zhou Chao Xie Ziwei Wang Chee Seng Chan Xudong Jiang Y. Tan 61 0 0 12 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 45 0 0 12 Mar 2025
Membership Inference Attacks fueled by Few-Short Learning to detect privacy leakage tackling data integrity D. López Nuria Rodríguez Barroso M. V. Luzón Francisco Herrera 51 0 0 12 Mar 2025
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling Itay Chachy Guy Yariv Sagie Benaim 74 0 0 12 Mar 2025
Generalizable AI-Generated Image Detection Based on Fractal Self-Similarity in the Spectrum Shengpeng Xiao Yuanfang Guo Heqi Peng Zeming Liu Liang Yang Y. Wang 57 0 0 11 Mar 2025
Identity Preserving Latent Diffusion for Brain Aging Modeling Gexin Huang Zhangsihao Yang Yalin Wang Guido Gerig Mengwei Ren Xiaoxiao Li MedIm DiffM 67 0 0 11 Mar 2025
"Principal Components" Enable A New Language of Images Xin Wen Bingchen Zhao Ismail Elezi Jiankang Deng Xiaojuan Qi 59 0 0 11 Mar 2025
MGHanD: Multi-modal Guidance for authentic Hand Diffusion Taehyeon Eum Jieun Choi Tae-Kyun Kim 38 0 0 11 Mar 2025
Few-Shot Class-Incremental Model Attribution Using Learnable Representation From CLIP-ViT Features Hanbyul Lee Juneho Yi DiffM 46 0 0 11 Mar 2025
Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation Mingkang Zhu Xi Chen Z. Wang Bei Yu Hengshuang Zhao Jiaya Jia MoMe 50 0 0 11 Mar 2025
NullFace: Training-Free Localized Face Anonymization Han-Wei Kung Tuomas Varanka Terence Sim N. Sebe DiffM PICV 56 0 0 11 Mar 2025
Accelerated Distributed Optimization with Compression and Error Feedback Yuan Gao Anton Rodomanov Jeremy Rack Sebastian U. Stich 40 0 0 11 Mar 2025
Controlling Latent Diffusion Using Latent CLIP Jason Becker Chris Wendler Peter Baylies Robert West Christian Wressnegger DiffM VLM 61 0 0 11 Mar 2025
PRISM: Privacy-Preserving Improved Stochastic Masking for Federated Generative Models Kyeongkook Seo Dong-Jun Han Jaejun Yoo 35 0 0 11 Mar 2025
Pathology-Aware Adaptive Watermarking for Text-Driven Medical Image Synthesis Chanyoung Kim Dayun Ju Jinyeong Kim Woojung Han Roberto Alcover-Couso Seong Jae Hwang MedIm 53 0 0 11 Mar 2025
Exploring Bias in over 100 Text-to-Image Generative Models J. Vice Naveed Akhtar Richard I. Hartley Ajmal Saeed Mian EGVM 64 2 0 11 Mar 2025
DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness Yiming Zhong Qi Jiang Jingyi Yu Yuexin Ma 56 2 0 11 Mar 2025
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models Jialv Zou Bencheng Liao Qian Zhang Wenyu Liu Xinggang Wang Mamba MLLM 77 1 0 11 Mar 2025
Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation Tianyu Chen Yasi Zhang Z. Wang Ying Nian Wu Oscar Leong Mingyuan Zhou DiffM 45 0 0 10 Mar 2025
LatexBlend: Scaling Multi-concept Customized Generation with Latent Textual Blending Jian Jin Zhenbo Yu Yang Shen Zhenyong Fu Jian Yang DiffM 60 0 0 10 Mar 2025
Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion Yongle Zhang Yimin Liu Qiang Wu DiffM 33 0 0 10 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 60 0 0 10 Mar 2025
Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping Ning Ding Jing Han Yuchuan Tian Chao Xu Kai Han Yehui Tang MQ 42 0 0 10 Mar 2025
Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment Xing Xie Jiawei Liu Ziyue Lin Huijie Fan Zhi-Long Han Yandong Tang Liangqiong Qu 40 0 0 10 Mar 2025
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation Hanzhi Chen Boyang Sun Anran Zhang Marc Pollefeys Stefan Leutenegger LM&Ro 63 0 0 10 Mar 2025
PersonaBooth: Personalized Text-to-Motion Generation Boeun Kim Hea In Jeong JungHoon Sung Yihua Cheng Jeongmin Lee ... Sang-Il Choi Younggeun Choi Saim Shin Jungho Kim Hyung Jin Chang DiffM VGen 63 0 0 10 Mar 2025
AnomalyPainter: Vision-Language-Diffusion Synergy for Zero-Shot Realistic and Diverse Industrial Anomaly Synthesis Zhangyu Lai Yilin Lu Xinyang Li Jianghang Lin Yansong Qu Liujuan Cao Ming Li Rongrong Ji DiffM 60 0 0 10 Mar 2025
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation Yuwei Niu Munan Ning Mengren Zheng Bin Lin Peng Jin Jiaqi Liao Kunpeng Ning Bin Zhu Li Yuan EGVM 53 10 0 10 Mar 2025
AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models Bo Huang Wenlun Xu Qizhuo Han Haodong Jing Ying Li DiffM 33 0 0 10 Mar 2025
Efficient Distillation of Classifier-Free Guidance using Adapters Cristian Perez Jensen Seyedmorteza Sadat 43 1 0 10 Mar 2025
LBM: Latent Bridge Matching for Fast Image-to-Image Translation Clement Chadebec O. Tasar Sanjeev Sreetharan Benjamin Aubin 37 0 0 10 Mar 2025
TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang Yiwei Guo Yanbo Ding Kunchang Li Xinyuan Chen Yaohui Wang Fangyikang Wang Ying Zhang Chen Li Y. Wang 43 0 0 10 Mar 2025
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories Huiyang Shao Xin Xia Y. Yang Yuxi Ren Xing Wang Xuefeng Xiao 54 1 0 10 Mar 2025
Fine-Grained Alignment and Noise Refinement for Compositional Text-to-Image Generation Amir Mohammad Izadi Seyed Mohsen Hosseini Soroush Vafaie Tabar Ali Abdollahi Armin Saghafian M. Baghshah EGVM 37 0 0 09 Mar 2025
Synthetic Data Generation for Minimum-Exposure Navigation in a Time-Varying Environment using Generative AI Models Nachiket U. Bapat Randy C. Paffenroth Raghvendra V. Cowlagi 42 0 0 09 Mar 2025
Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias Mingxiao Li Tingyu Qu Tinne Tuytelaars Marie-Francine Moens EGVM 38 0 0 09 Mar 2025
SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding Juhyeon Park P. Y. Kim Jiook Cha Shinjae Yoo Taesup Moon 48 0 0 09 Mar 2025
NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation Shengfang Zhai Jiajun Li Yue Liu Huanran Chen Zhihua Tian Wenjie Qu Qingni Shen Ruoxi Jia Yinpeng Dong Jiaheng Zhang AAML 44 0 0 09 Mar 2025
D3DR: Lighting-Aware Object Insertion in Gaussian Splatting Vsevolod Skorokhodov N. Durasov Pascal Fua 3DGS 43 0 0 09 Mar 2025
PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation Yanjie Pan Q. He Zhengkai Jiang P. Xu Chaoyi Wang ... Yun Cao Zhenye Gan M. Chi Bo Peng Y. Wang DiffM 61 0 0 09 Mar 2025
M $^3$ amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification Mingxiang Cao Weiying Xie Xin Zhang Jiaqing Zhang Kai Jiang Jie Lei Yunsong Li Mamba 44 0 0 09 Mar 2025
Color Alignment in Diffusion Ka Chun Shum Binh-Son Hua Duc Thanh Nguyen Sai-Kit Yeung 60 0 0 09 Mar 2025
X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation Jian Ma Qirong Peng Xu Guo Chen Chen H. Lu Zhenyu Yang VLM 64 1 0 08 Mar 2025
Boosting the Local Invariance for Better Adversarial Transferability Bohan Liu Xiaosen Wang AAML 56 0 0 08 Mar 2025
PTDiffusion: Free Lunch for Generating Optical Illusion Hidden Pictures with Phase-Transferred Diffusion Model Xiang Gao Shuai Yang Jiaying Liu DiffM 46 0 0 08 Mar 2025