CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

21 February 2025

Papers citing "CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers"

44 / 44 papers shown

Title
BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation Panwen Hu Jiehui Huang Qiang Sun Xiaodan Liang DiffM VGen 151 0 0 11 May 2025
OminiControl2: Efficient Conditioning for Diffusion Transformers Zhenxiong Tan Qiaochu Xue Xingyi Yang Songhua Liu Xinchao Wang DiffM 131 12 0 11 Mar 2025
DreamRelation: Relation-Centric Video Customization Yujie Wei Shiwei Zhang Hangjie Yuan Biao Gong Longxiang Tang ... Haonan Qiu Hengjia Li Shuai Tan Yize Zhang Hongming Shan VGen 189 7 0 10 Mar 2025
Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance Wenhao Sun Benlei Cui Xue-Mei Dong Jingqun Tang DiffM 372 19 0 17 Dec 2024
T2I-FactualBench: Benchmarking the Factuality of Text-to-Image Models with Knowledge-Intensive Concepts Ziwei Huang Wanggui He Quanyu Long Yandi Wang Haoyuan Li ... Fangxun Shu Long Chen Hao Jiang Leilei Gan Leilei Gan EGVM 654 7 0 05 Dec 2024
RestorerID: Towards Tuning-Free Face Restoration with ID Preservation Jiacheng Ying Mushui Liu Zhe Wu Runming Zhang Zhu Yu Siming Fu Si-Yuan Cao Chao Wu YunLong Yu Hui-Liang Shen DiffM 150 4 0 21 Nov 2024
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu ... Fan Liu Zhizhong Huang Jiaxin Ye Yingya Zhang Hongming Shan DiffM VGen 180 22 0 17 Oct 2024
Qwen2.5-Coder Technical Report Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu ... Fei Huang Xingzhang Ren Xuancheng Ren Jingren Zhou Junyang Lin OSLM 187 491 0 18 Sep 2024
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities Tao Wu Yong Zhang Xintao Wang Xianpan Zhou Guangcong Zheng Chen Ma Ying Shan Xi Li VGen DiffM 91 38 0 23 Aug 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 439 802 0 12 Aug 2024
Harmonizing Visual Text Comprehension and Generation Zhen Zhao Jingqun Tang Binghong Wu Chunhui Lin Shubo Wei Hao Liu Xin Tan Zhizhong Zhang Can Huang Yuan Xie VLM 147 31 0 23 Jul 2024
Still-Moving: Customized Video Generation without Customized Video Data Hila Chefer Shiran Zada Roni Paiss Ariel Ephrat Omer Tov Michael Rubinstein Lior Wolf Tali Dekel T. Michaeli Inbar Mosseri DiffM VGen 142 33 0 11 Jul 2024
MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis Wanggui He Siming Fu Mushui Liu Xierui Wang Wenyi Xiao ... Zhelun Yu Haoyuan Li Ziwei Huang Leilei Gan Hao Jiang DiffM 153 32 0 10 Jul 2024
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation Mushui Liu Yuhang Ma Yang Zhen Jun Dan Yunlong Yu Zeng Zhao Zhipeng Hu Bai Liu Changjie Fan VLM DiffM 177 22 0 30 Jun 2024
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance X. Wang Siming Fu Qihan Huang Wanggui He Hao Jiang DiffM 254 68 0 11 Jun 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 462 1,849 0 05 Mar 2024
$λ$ -ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space Maitreya Patel Sangmin Jung Chitta Baral Yezhou Yang VLM 136 43 0 07 Feb 2024
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation Yuxuan Zhang Yiren Song Jiaming Liu Rui Wang Jinpeng Yu ... Huaxia Li Xu Tang Yao Hu Han Pan Zhongliang Jing 159 89 0 26 Dec 2023
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion Yujie Wei Shiwei Zhang Zhiwu Qing Hangjie Yuan Zhiheng Liu Yu Liu Yingya Zhang Jingren Zhou Hongming Shan DiffM VGen 111 118 0 07 Dec 2023
VideoBooth: Diffusion-based Video Generation with Image Prompts Yuming Jiang Tianxing Wu Shuai Yang Chenyang Si Dahua Lin Yu Qiao Chen Change Loy Ziwei Liu DiffM VGen 148 90 0 01 Dec 2023
VBench: Comprehensive Benchmark Suite for Video Generative Models Ziqi Huang Yinan He Jiashuo Yu Fan Zhang Chenyang Si ... Xinyuan Chen Limin Wang Dahua Lin Yu Qiao Ziwei Liu VGen 250 598 0 29 Nov 2023
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation Liucheng Hu Xin Gao Peng Zhang Ke Sun Bang Zhang Liefeng Bo DiffM VGen 200 506 0 28 Nov 2023
Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation Lijun Yu José Lezama N. B. Gundavarapu Luca Versari Kihyuk Sohn ... Boqing Gong Ming-Hsuan Yang Irfan Essa David A. Ross Lu Jiang 217 401 0 09 Oct 2023
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models Hu Ye Jun Zhang Siyi Liu Xiao Han Wei Yang DiffM 167 970 0 13 Aug 2023
Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning Jiancang Ma Junhao Liang Chen Chen H. Lu 159 171 0 21 Jul 2023
AnyDoor: Zero-shot Object-level Image Customization Xi Chen Lianghua Huang Yu Liu Yujun Shen Deli Zhao Hengshuang Zhao DiffM 171 332 0 18 Jul 2023
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning Yuwei Guo Ceyuan Yang Anyi Rao Zhengyang Liang Yaohui Wang Yu Qiao Maneesh Agrawala Dahua Lin Bo Dai VGen 228 1,051 0 10 Jul 2023
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis Dustin Podell Zion English Kyle Lacey A. Blattmann Tim Dockhorn Jonas Muller Joe Penna Robin Rombach 538 2,971 0 04 Jul 2023
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing Dongxu Li Junnan Li Steven C. H. Hoi 187 384 0 24 May 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 636 8,639 0 05 Apr 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 356 2,441 0 09 Mar 2023
Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation Diederik P. Kingma Ruiqi Gao DiffM 289 171 0 01 Mar 2023
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Jay Zhangjie Wu Yixiao Ge Xintao Wang Weixian Lei Yuchao Gu Yufei Shi Wynne Hsu Ying Shan Xiaohu Qie Mike Zheng Shou VGen 222 839 0 22 Dec 2022
Scalable Diffusion Models with Transformers William S. Peebles Saining Xie GNN 311 2,962 0 19 Dec 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 595 3,387 0 20 Oct 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 524 3,217 0 25 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 281 2,094 0 02 Aug 2022
Video Diffusion Models Jonathan Ho Tim Salimans Alexey A. Gritsenko William Chan Mohammad Norouzi David J. Fleet DiffM VGen 529 1,846 0 07 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer DiffM 879 17,675 0 20 Dec 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Edouard Grave Julien Mairal Piotr Bojanowski Armand Joulin 1.4K 6,761 0 29 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.3K 33,770 0 26 Feb 2021
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 531 8,476 0 06 Oct 2020
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 1.9K 20,914 0 19 Jun 2020
Neural Discrete Representation Learning Aaron van den Oord Oriol Vinyals Koray Kavukcuoglu BDL SSL OCL 394 5,537 0 02 Nov 2017