High-Resolution Image Synthesis with Latent Diffusion Models

20 December 2021

Papers citing "High-Resolution Image Synthesis with Latent Diffusion Models"

50 / 8,115 papers shown

Title
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving Yishen Ji Ziyue Zhu Zhenxin Zhu Kaixin Xiong Ming Lu Zhiqi Li Lijun Zhou Haiyang Sun Bing Wang Tong Lu VGen 53 1 0 28 Mar 2025
Q-Insight: Understanding Image Quality via Visual Reinforcement Learning Weiqi Li X. Zhang Shijie Zhao Y. Zhang Junlin Li Li Zhang Jian Andrew Zhang 46 3 0 28 Mar 2025
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation Minho Park S. Park Jungsoo Lee Hyojin Park Kyuwoong Hwang Fatih Porikli Jaegul Choo Sungha Choi 34 0 0 28 Mar 2025
Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion S. Yu Yuxin Chen Zhongang Qi Zeke Xie Yifan Wang Lijun Wang Ying Shan Huchuan Lu 39 0 0 28 Mar 2025
An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval Min Cao Ziyin Zeng YuXin Lu Mang Ye Dong Yi Jinqiao Wang SyDa 52 0 0 28 Mar 2025
Event-Based Distributed Linear Quadratic Gaussian for Multi-Robot Coordination with Localization Uncertainty Tohid Kargar Tasooji Sakineh Khodadadi 26 0 0 28 Mar 2025
Zero-Shot Visual Concept Blending Without Text Guidance Hiroya Makino Takahiro Yamaguchi Hiroyuki Sakai DiffM 43 0 0 27 Mar 2025
SyncSDE: A Probabilistic Framework for Diffusion Synchronization Hyunjun Lee Hyunsoo Lee Sookwan Han DiffM 46 0 0 27 Mar 2025
Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance Jaywon Koo J. Hernandez Moayed Haji-Ali Ziyan Yang Vicente Ordonez EGVM 72 0 0 27 Mar 2025
AGILE: A Diffusion-Based Attention-Guided Image and Label Translation for Efficient Cross-Domain Plant Trait Identification Earl Ranario Lars Lundqvist Heesup Yun Brian N Bailey J. M. Earles VLM 38 0 0 27 Mar 2025
StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion Ziyu Guo Young Yoon Lee Joseph Liu Yizhak Ben-Shabat Victor Zordan Mubbasir Kapadia DiffM VGen 70 0 0 27 Mar 2025
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing Fan Qi Yu Duan Changsheng Xu DiffM 55 0 0 27 Mar 2025
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing Achint Soni Meet Soni Sirisha Rambhatla DiffM 61 0 0 27 Mar 2025
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning Chi-Hsi Kung Frangil Ramirez Juhyung Ha Yi-Ting Chen David J. Crandall Yi-Hsuan Tsai 43 0 0 27 Mar 2025
Optimal Stepsize for Diffusion Sampling Jianning Pei Han Hu Shuyang Gu 48 0 0 27 Mar 2025
A Unified Image-Dense Annotation Generation Model for Underwater Scenes Hongkai Lin Dingkang Liang Zhenghao Qi X. Bai DiffM 41 0 0 27 Mar 2025
HOT: Hadamard-based Optimized Training Seonggon Kim Juncheol Shin Seung-taek Woo Eunhyeok Park 48 0 0 27 Mar 2025
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer Yong Xie Yunlian Sun Hongwen Zhang Y. Liu Jinhui Tang VGen 89 0 0 27 Mar 2025
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis Shitian Zhao Qilong Wu Xinyue Li Bo Zhang Ming-xing Li ... H. Li Yu Qiao Peng Gao Bin Fu Zhen Li EGVM 43 0 0 27 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu W. Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 136 2 0 27 Mar 2025
CTRL-O: Language-Controllable Object-Centric Visual Representation Learning Aniket Didolkar Andrii Zadaianchuk Rabiul Awal Maximilian Seitzer E. Gavves Aishwarya Agrawal OCL VLM 84 2 0 27 Mar 2025
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving Lucas Nunes Rodrigo Marcuzzi Jens Behley C. Stachniss 3DPC 78 0 0 27 Mar 2025
DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation Haoyu Zhao Zhongang Qi Cong Wang Qingping Zheng Guansong Lu Fei Chen Hang Xu Zuxuan Wu DiffM VGen 46 0 0 27 Mar 2025
FakeReasoning: Towards Generalizable Forgery Detection and Reasoning Y. Gao Dongliang Chang Bingyao Yu Haotian Qin Lei Chen Kongming Liang Zhanyu Ma 49 0 0 27 Mar 2025
3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models Y. Zhang Mengchen Zhang Tong Wu Tengfei Wang Gordon Wetzstein D. Lin Ziwei Liu 3DV ELM 71 0 0 27 Mar 2025
Stable-SCore: A Stable Registration-based Framework for 3D Shape Correspondence Haolin Liu Xiaohang Zhan Zizheng Yan Zhongjin Luo Yuxin Wen Xiaoguang Han 58 0 0 27 Mar 2025
Can Video Diffusion Model Reconstruct 4D Geometry? Jinjie Mai Wenxuan Zhu Haozhe Liu Bing Li Cheng Zheng Jürgen Schmidhuber Bernard Ghanem VGen MDE 70 0 0 27 Mar 2025
Semantic Consistent Language Gaussian Splatting for Point-Level Open-vocabulary Querying Hairong Yin Huangying Zhan Yi Tian Xu Raymond A. Yeh 43 0 0 27 Mar 2025
Vision-to-Music Generation: A Survey Zhaokai Wang Chenxi Bao Le Zhuo Jingrui Han Yang Yue Yihong Tang Victor Shea-Jay Huang Yue Liao EGVM VGen 74 1 0 27 Mar 2025
Shape Modeling of Longitudinal Medical Images: From Diffeomorphic Metric Mapping to Deep Learning Edwin Tay Nazli Tümer Amir A. Zadpoor MedIm 49 0 0 27 Mar 2025
EVPGS: Enhanced View Prior Guidance for Splatting-based Extrapolated View Synthesis J. Li Feiyu Wang Xiaochao Qu Chengjing Wu Luoqi Liu Ting Liu 3DGS 34 0 0 26 Mar 2025
EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Interpolation Ziran Zhang Xiaohui Li Yihao Liu Yujin Wang Yueting Chen Tianfan Xue Shi Guo DiffM VGen 90 0 0 26 Mar 2025
Unified Multimodal Discrete Diffusion Alexander Swerdlow Mihir Prabhudesai Siddharth Gandhi Deepak Pathak Katerina Fragkiadaki DiffM 77 0 0 26 Mar 2025
DINeMo: Learning Neural Mesh Models with no 3D Annotations Weijie Guo Guofeng Zhang Wufei Ma A. Yuille 3DH 96 0 0 26 Mar 2025
Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector Xiao Guo Xiufeng Song Yue Zhang Xiaohong Liu X. Liu 58 1 0 26 Mar 2025
Latent Beam Diffusion Models for Decoding Image Sequences Guilherme Fernandes Vasco Ramos Regev Cohen Idan Szpektor João Magalhães 76 0 0 26 Mar 2025
ReverBERT: A State Space Model for Efficient Text-Driven Speech Style Transfer Michael Brown Sofia Martinez Priya Singh 43 0 0 26 Mar 2025
EditCLIP: Representation Learning for Image Editing Qian Wang Aleksandar Cvejic Abdelrahman Eldesokey Peter Wonka 67 0 0 26 Mar 2025
Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models Prin Phunyaphibarn Phillip Y. Lee Jaihoon Kim Minhyuk Sung DiffM 84 0 0 26 Mar 2025
Generating Synthetic Data with Formal Privacy Guarantees: State of the Art and the Road Ahead Viktor Schlegel Anil A Bharath Zilong Zhao Kevin Yee 66 0 0 26 Mar 2025
TD-BFR: Truncated Diffusion Model for Efficient Blind Face Restoration Ziying Zhang Xiang Gao Zhixin Wang Q. Hu Xiaoyun Zhang DiffM 84 0 0 26 Mar 2025
Video Motion Graphs Haiyang Liu Zhan Xu Fa-Ting Hong Hsin-Ping Huang Yi Zhou Yang Zhou DiffM VGen 88 0 0 26 Mar 2025
Synthetic-to-Real Self-supervised Robust Depth Estimation via Learning with Motion and Structure Priors Weilong Yan Ming Li H. Li S. Robby T. Tan MDE 77 0 0 26 Mar 2025
Eyes Tell the Truth: GazeVal Highlights Shortcomings of Generative AI in Medical Imaging David Wong Bin Wang Gorkem Durak M. Tliba Akshay S. Chaudhari ... Eric Hart Drew A Torigian J. Udupa Elizabeth A. Krupinski Ulas Bagci MedIm 34 0 0 26 Mar 2025
Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations Haitong Liu Kuofeng Gao Yang Bai Jinmin Li Jinxiao Shan Tao Dai Shu-Tao Xia AAML 65 1 0 26 Mar 2025
High Quality Diffusion Distillation on a Single GPU with Relative and Absolute Position Matching Guoqiang Zhang Kenta Niwa J. P. Lewis Cedric Mesnage W. Kleijn 76 0 0 26 Mar 2025
Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation Qi Si Bo Wang Zhao Zhang 68 0 0 26 Mar 2025
Disentangled Source-Free Personalization for Facial Expression Recognition with Neutral Target Data Masoumeh Sharafi Emma Ollivier Muhammad Osama Zeeshan Soufiane Belharbi M. Pedersoli A. L. Koerich Simon L Bacon EricGranger 69 1 0 26 Mar 2025
TransDiffSBDD: Causality-Aware Multi-Modal Structure-Based Drug Design Xiuyuan Hu Guoqing Liu Can Chen Yang Zhao Hao Zhang Xue Liu 50 2 0 26 Mar 2025
Shape Generation via Weight Space Learning Maximilian Plattner Arturs Berzins Johannes Brandstetter 25 0 0 26 Mar 2025