Title
Brain-Conditional Multimodal Synthesis: A Survey and TaxonomyIEEE Transactions on Artificial Intelligence (IEEE TAI), 2023 Weijian Mai Jian Zhang Pengfei Fang Zhijun Zhang 400 14 0 31 Dec 2023
VideoPoet: A Large Language Model for Zero-Shot Video Generation Dan Kondratyuk Lijun Yu Xiuye Gu José Lezama Jonathan Huang ... Irfan Essa Huisheng Wang David A. Ross Bryan Seybold Lu Jiang VGen 440 388 0 21 Dec 2023
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers Haoyu Ma Shahin Mahdizadehaghdam Bichen Wu Zhipeng Fan Yuchao Gu Wenliang Zhao Lior Shapira Xiaohui Xie DiffM VGen 197 9 0 19 Dec 2023
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation Akio Kodaira Chenfeng Xu Toshiki Hazama Takanori Yoshimoto Kohei Ohno ... Soichi Sugano Hanying Cho Zhijian Liu Kurt Keutzer Kurt Keutzer 235 59 0 19 Dec 2023
Precipitation Downscaling with Spatiotemporal Video Diffusion Prakhar Srivastava Ruihan Yang Gavin Kerrigan Gideon Dresdner Jeremy McGibbon Christopher S. Bretherton Stephan Mandt DiffM 313 15 0 11 Dec 2023
Free3D: Consistent Novel View Synthesis without 3D Representation Chuanxia Zheng Andrea Vedaldi 3DV 287 64 0 07 Dec 2023
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang VGen DiffM 168 54 0 07 Dec 2023
KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis Youngwan Lee Kwanyong Park Yoorhim Cho Yong-Ju Lee Sung Ju Hwang VLM 210 13 0 07 Dec 2023
WoVoGen: World Volume-aware Diffusion for Controllable Multi-camera Driving Scene GenerationEuropean Conference on Computer Vision (ECCV), 2023 Jiachen Lu Ze Huang Zeyu Yang Jiahui Zhang Li Zhang VGen 312 69 0 05 Dec 2023
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text GuidanceIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Cong Wang Jiaxi Gu Panwen Hu Songcen Xu Hang Xu Xiaodan Liang VGen 271 21 0 05 Dec 2023
ChatPose: Chatting about 3D Human PoseComputer Vision and Pattern Recognition (CVPR), 2023 Yao Feng Jing Lin Sai Kumar Dwivedi Yu Sun Priyanka Patel Michael J. Black 3DH 247 62 0 30 Nov 2023
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous DrivingComputer Vision and Pattern Recognition (CVPR), 2023 Yu-Quan Wang Jiawei He Lue Fan Hongxin Li Yuntao Chen Zhaoxiang Zhang VGen 280 235 0 29 Nov 2023
Make Pixels Dance: High-Dynamic Video Generation Yan Zeng Guoqiang Wei Jiani Zheng Jiaxin Zou Yang Wei Yuchen Zhang Hang Li DiffM VGen 196 144 0 18 Nov 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning Han Lin Abhaysinh Zala Jaemin Cho Joey Tianyi Zhou LM&Ro VGen DiffM 393 109 0 26 Sep 2023
On the Design Fundamentals of Diffusion Models: A SurveyPattern Recognition (Pattern Recogn.), 2023 Ziyi Chang George Alex Koulieris Hyung Jin Chang Hubert P. H. Shum DiffM 537 78 0 07 Jun 2023
LEO: Generative Latent Image Animator for Human Video SynthesisInternational Journal of Computer Vision (IJCV), 2023 Yaohui Wang Xin Ma Xinyuan Chen A. Dantcheva Bo Dai Yu Qiao DiffM 462 43 0 06 May 2023
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic ModelsMachine Intelligence Research (MIR), 2022 Cheng Lu Yuhao Zhou Fan Bao Jianfei Chen Chongxuan Li Jun Zhu DiffM 670 805 0 02 Nov 2022