StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video
Generation

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Neural Information Processing Systems (NeurIPS), 2024

2 May 2024

Ming-Ming Cheng

ArXiv (abs)PDF HTML HuggingFace (57 upvotes)Github (6293★)

Papers citing "StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation"

17 / 67 papers shown

Title
SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile DeviceComputer Vision and Pattern Recognition (CVPR), 2024 Yushu Wu Zhixing Zhang Yanyu Li Yanwu Xu Vidit Goel ... Ju Hu Dimitris N. Metaxas Yanzhi Wang Sergey Tulyakov Jian Ren VGen DiffM 333 15 0 13 Dec 2024
SerialGen: Personalized Image Generation by First Standardization Then PersonalizationComputer Vision and Pattern Recognition (CVPR), 2024 Cong Xie Han Zou Ruiqi Yu Yan Zhang Zhenpeng Zhan 319 2 0 02 Dec 2024
MovieBench: A Hierarchical Movie Level Dataset for Long Video GenerationComputer Vision and Pattern Recognition (CVPR), 2024 Weijia Wu Mingyu Liu Zeyu Zhu Xi Xia Haoen Feng Wen Wang Kevin Qinghong Lin Chunhua Shen Mike Zheng Shou DiffM VGen 371 12 0 22 Nov 2024
StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration Panwen Hu Jin Jiang Jianqi Chen Mingfei Han Shengcai Liao Xiaojun Chang Xiaodan Liang VGen DiffM 317 17 0 07 Nov 2024
Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image AnimationInternational Conference on Learning Representations (ICLR), 2024 Jiahao Cui Hui Li Yao Yao Hao Zhu Hanlin Shang Kaihui Cheng Hang Zhou Siyu Zhu Jingdong Wang DiffM VGen 254 69 0 10 Oct 2024
Progressive Autoregressive Video Diffusion Models Desai Xie Zhan Xu Yicong Hong Hao Tan Difan Liu Feng Liu Arie E. Kaufman Yang Zhou DiffM VGen 268 35 0 10 Oct 2024
Single Image, Any Face: Generalisable 3D Face Generation Wenqing Wang Haosen Yang Josef Kittler Xiatian Zhu 3DH 285 2 0 25 Sep 2024
AudioEditor: A Training-Free Diffusion-Based Audio Editing FrameworkIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Yuhang Jia Yang Chen Jinghua Zhao Shiwan Zhao Wenjia Zeng Yong Chen Yong Qin DiffM 115 9 0 19 Sep 2024
Prompt-Softbox-Prompt: A Free-Text Embedding Control for Image Editing Yitong Yang Yinglin Wang Tian Zhang Jing Wang Shuting He DiffM 218 3 0 24 Aug 2024
DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion Huiguo He Huan Yang Zixi Tuo Yuan Zhou Qiuyue Wang Yuhang Zhang Zeyu Liu Wenhao Huang Hongyang Chao Jian Yin VGen DiffM 423 27 0 17 Jul 2024
Improving Visual Storytelling with Multimodal Large Language Models Xiaochuan Lin Xiangyong Chen 265 1 0 02 Jul 2024
AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation Junhao Cheng Xi Lu Hanhui Li Khun Loun Zai Baiqiao Yin Yuhao Cheng Yiqiang Yan Xiaodan Liang DiffM VGen 313 16 0 03 Jun 2024
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark Haoxing Chen Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu ... Jun Lan Huijia Zhu Jianfu Zhang Weiqiang Wang Huaxiong Li Mamba 382 41 0 30 May 2024
Looking Backward: Streaming Video-to-Video Translation with Feature Banks Feng Liang Akio Kodaira Chenfeng Xu Masayoshi Tomizuka Kurt Keutzer Diana Marculescu DiffM VGen 377 17 0 24 May 2024
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text Roberto Henschel Levon Khachatryan Daniil Hayrapetyan Hayk Poghosyan Vahram Tadevosyan Zinan Lin Shant Navasardyan Humphrey Shi DiffM VGen 422 140 0 21 Mar 2024
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video Zijie Pan Zeyu Yang Xiatian Zhu Li Zhang 3DGS 272 44 0 16 Jan 2024
StoryGPT-V: Large Language Models as Consistent Story VisualizersComputer Vision and Pattern Recognition (CVPR), 2023 Xiaoqian Shen Mohamed Elhoseiny VLM 383 16 0 04 Dec 2023