StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

2 May 2024

Ming-Ming Cheng

Papers citing "StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation"

50 / 70 papers shown

Title
Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability L. Wang Senmao Li Fei Yang Jianye Wang Ziheng Zhang Y. Liu Y. Wang Jian Yang DiffM 52 0 0 06 May 2025
FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis Jiangtong Tan Hu Yu Jie Huang Jie Xiao Feng Zhao 57 1 0 02 May 2025
CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition Quynh Phung Long Mai Fabian Caba Heilbron Feng Liu Jia-Bin Huang Cusuh Ham DiffM VGen CoGe 98 0 0 28 Apr 2025
NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration Haotian Dong X. Wang D. Lin Yipeng Wu Qin Chen R. Liu Kairui Yang Ping Li Qing-Wu Guo VGen 42 0 0 25 Apr 2025
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians Cailin Zhuang Yaoqi Hu X. Zhang Wei Cheng Jiacheng Bao Shengqi Liu Yiying Yang Xianfang Zeng Gang Yu Ming Li 3DGS 38 0 0 21 Apr 2025
Generative AI for Film Creation: A Survey of Recent Advances Ruihan Zhang Borou Yu Jiajian Min Yetong Xin Zheng Wei ... Sijia Jiang Peiwen Huang Na Chen Xuanxuan Liu Anyi Rao VGen 57 0 0 11 Apr 2025
Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling Jaskirat Singh Junshen Kevin Chen Jonas Kohler Michael Cohen DiffM VGen 33 0 0 08 Apr 2025
One-Minute Video Generation with Test-Time Training Karan Dalal Daniel Koceja Gashon Hussein Jiarui Xu Yue Zhao ... Tatsunori Hashimoto Sanmi Koyejo Yejin Choi Yu Sun Xiaolong Wang ViT 91 3 0 07 Apr 2025
SkyReels-A2: Compose Anything in Video Diffusion Transformers Zhengcong Fei D. Li Di Qiu J. Wang Yikun Dou ... J. Xu Mingyuan Fan Guibin Chen Yang Li Yahui Zhou DiffM VGen 63 2 0 03 Apr 2025
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction Junhao Cheng Yuying Ge Yixiao Ge Jing Liao Ying Shan VGen AI4CE 51 0 0 01 Apr 2025
Consistent Subject Generation via Contrastive Instantiated Concepts Lee Hsin-Ying Kelvin Chan Ming Yang DiffM 88 0 0 31 Mar 2025
Object Isolated Attention for Consistent Story Visualization Xiangyang Luo Junhao Cheng Yifan Xie Xin Zhang Tao Feng Z. Liu Fei Ma Fei Richard Yu DiffM 39 1 0 30 Mar 2025
MoCha: Towards Movie-Grade Talking Character Synthesis Cong Wei Bo Sun Haoyu Ma Ji Hou F. Xu ... Kunpeng Li Tingbo Hou Animesh Sinha Peter Vajda Wenhu Chen VGen 48 0 0 30 Mar 2025
Mask $^2$ DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation Tianhao Qi Jianlong Yuan Wanquan Feng Shancheng Fang Jiawei Liu Siyu Zhou Qian He Hongtao Xie Yongdong Zhang DiffM VGen 39 0 0 25 Mar 2025
DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode Junjia Huang Pengxiang Yan Jinhang Cai Jiyang Liu Zhao Wang Yitong Wang Xinglong Wu Guanbin Li DiffM 70 0 0 17 Mar 2025
Personalize Anything for Free with Diffusion Transformer Haoran Feng Zehuan Huang Lin Li Hairong Lv Lu Sheng DiffM 72 1 0 16 Mar 2025
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance Yufan Deng Xun Guo Y. Wang Jacob Zhiyuan Fang Angtian Wang Shenghai Yuan Yiding Yang Bo Liu Haibin Huang Chongyang Ma DiffM VGen 64 0 0 13 Mar 2025
Long Context Tuning for Video Generation Yuwei Guo Ceyuan Yang Ziyan Yang Zhibei Ma Zhijie Lin Zhenheng Yang Dahua Lin Lu Jiang DiffM VGen 72 1 0 13 Mar 2025
Semantic Latent Motion for Portrait Video Generation Qiyuan Zhang Chenyu Wu Wenzhang Sun Huaize Liu Donglin Di Wei Chen Changqing Zou VGen 67 0 0 13 Mar 2025
Long-horizon Visual Instruction Generation with Logic and Attribute Self-reflection Yucheng Suo Fan Ma Kaixin Shen Linchao Zhu Yi Yang VLM 45 0 0 12 Mar 2025
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion Lehan Yang Jincen Song Tianlong Wang Daiqing Qi Weili Shi Yuheng Liu Sheng Li DiffM VOS VGen 69 0 0 11 Mar 2025
Automated Movie Generation via Multi-Agent CoT Planning Weijia Wu Zeyu Zhu Mike Zheng Shou VGen 70 1 0 10 Mar 2025
DreamRelation: Relation-Centric Video Customization Yujie Wei Shiwei Zhang Hangjie Yuan Biao Gong Longxiang Tang ... Haonan Qiu Hengjia Li Shuai Tan Y. Zhang Hongming Shan VGen 68 1 0 10 Mar 2025
Text2Story: Advancing Video Storytelling with Text Guidance Taewon Kang D. Kothandaraman Ming C. Lin DiffM VGen 59 0 0 08 Mar 2025
MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio Xuenan Xu Jiahao Mei Chenliang Li Yuning Wu M. Yan Shaopeng Lai J. Zhang Mengyue Wu VGen LLMAG 44 1 0 07 Mar 2025
How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects Wonkwang Lee Jongwon Jeong Taehong Moon Hyeon-Jong Kim Jaehyeon Kim Gunhee Kim Byeong-Uk Lee DiffM 52 0 0 06 Mar 2025
VisAgent: Narrative-Preserving Story Visualization Framework Seungkwon Kim GyuTae Park Sangyeon Kim Seung-Hun Nam 38 0 0 04 Mar 2025
Dynamic Concepts Personalization from Single Videos Rameen Abdal Or Patashnik Ivan Skorokhodov Willi Menapace Aliaksandr Siarohin Sergey Tulyakov Daniel Cohen-Or Kfir Aberman DiffM VGen 42 0 0 21 Feb 2025
VideoAuteur: Towards Long Narrative Video Generation Junfei Xiao Feng Cheng Lu Qi Liangke Gui Jiepeng Cen Zhibei Ma Alan L. Yuille Lu Jiang VGen 54 2 0 10 Jan 2025
Multi-subject Open-set Personalization in Video Generation Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Yuwei Fang Kwot Sin Lee Ivan Skorokhodov Kfir Aberman Jun-Yan Zhu Ming Yang Sergey Tulyakov DiffM VGen 69 7 0 10 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan X. Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming Yang VLM 89 11 0 07 Jan 2025
Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin Yaqi Zhao Mingwu Zheng Ke Lin Jiarong Ou ... Pengfei Wan Di Zhang Baoqun Yin Wentao Zhang Kun Gai 119 2 0 03 Jan 2025
Enhancing Multi-Text Long Video Generation Consistency without Tuning: Time-Frequency Analysis, Prompt Alignment, and Theory Xingyao Li Fengzhuo Zhang Jiachun Pan Yunlong Hou Vincent Y. F. Tan Zhuoran Yang DiffM VGen 35 0 0 23 Dec 2024
Video Diffusion Transformers are In-Context Learners Zhengcong Fei Di Qiu Changqian Yu Debang Li Mingyuan Fan VGen DiffM 118 2 0 14 Dec 2024
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device Yushu Wu Zhixing Zhang Yanyu Li Yanwu Xu Anil Kag ... Ju Hu Dimitris N. Metaxas Yanzhi Wang Sergey Tulyakov Jian Ren DiffM VGen 90 2 0 13 Dec 2024
SerialGen: Personalized Image Generation by First Standardization Then Personalization Cong Xie Han Zou Ruiqi Yu Yan Zhang Zhenpeng Zhan 64 1 0 02 Dec 2024
DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model JiHwan Moon Jihoon Park Jungeun Kim Jongseong Bae Hyeongwoo Jeon Ha Young Kim 83 1 0 26 Nov 2024
MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 114 1 0 22 Nov 2024
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration Panwen Hu Jin Jiang Jianqi Chen Mingfei Han Shengcai Liao Xiaojun Chang Xiaodan Liang VGen DiffM 28 5 0 07 Nov 2024
Unbounded: A Generative Infinite Game of Character Life Simulation Jialu Li Yuanzhen Li Neal Wadhwa Yael Pritch David E. Jacobs Michael Rubinstein Mohit Bansal Nataniel Ruiz VGen AI4CE 28 4 0 24 Oct 2024
Group Diffusion Transformers are Unsupervised Multitask Learners Lianghua Huang Wei Wang Zhi-Fan Wu Huanzhang Dou Yupeng Shi Yutong Feng C. Liang Yu Liu Jingren Zhou VLM 31 11 0 19 Oct 2024
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation Jiahao Cui Hui Li Yao Yao Hao Zhu Hanlin Shang Kaihui Cheng Hang Zhou Siyu Zhu Jingdong Wang DiffM VGen 34 22 0 10 Oct 2024
Story-Adapter: A Training-free Iterative Framework for Long Story Visualization Jiawei Mao Xiaoke Huang Yunfei Xie Yuanqi Chang Mude Hui Bingjie Xu Yuyin Zhou VGen DiffM 41 0 0 08 Oct 2024
AP-LDM: Attentive and Progressive Latent Diffusion Model for Training-Free High-Resolution Image Generation Boyuan Cao Jiaxin Ye Yujie Wei Hongming Shan 18 3 0 08 Oct 2024
GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting Yukang Cao Masoud Hadi Liang Pan Ziwei Liu 3DGS DiffM 50 4 0 07 Oct 2024
Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection Yuhang Ma Wenting Xu Chaoyi Zhao Keqiang Sun Qinfeng Jin Zeng Zhao Changjie Fan Zhipeng Hu VGen DiffM 25 1 0 29 Sep 2024
Collaborative Comic Generation: Integrating Visual Narrative Theories with AI Models for Enhanced Creativity Yi-Chun Chen Arnav Jhala 32 0 0 25 Sep 2024
Single Image, Any Face: Generalisable 3D Face Generation Wenqing Wang Haosen Yang Josef Kittler Xiatian Zhu 3DH 68 0 0 25 Sep 2024
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation Zhengguang Zhou Jing Li Huaxia Li Nemo Chen Xu Tang DiffM VGen 32 7 0 19 Sep 2024
AudioEditor: A Training-Free Diffusion-Based Audio Editing Framework Yuhang Jia Yang Chen Jinghua Zhao Shiwan Zhao Wenjia Zeng Yong Chen Yong Qin DiffM 29 1 0 19 Sep 2024