Title
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction Junhao Cheng Yuying Ge Yixiao Ge Jing Liao Ying Shan VGen AI4CE 49 0 0 01 Apr 2025
Object Isolated Attention for Consistent Story Visualization Xiangyang Luo Junhao Cheng Yifan Xie Xin Zhang Tao Feng Z. Liu Fei Ma Fei Richard Yu DiffM 31 1 0 30 Mar 2025
Text2Story: Advancing Video Storytelling with Text Guidance Taewon Kang D. Kothandaraman Ming C. Lin DiffM VGen 52 0 0 08 Mar 2025
MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio Xuenan Xu Jiahao Mei Chenliang Li Yuning Wu M. Yan Shaopeng Lai J. Zhang Mengyue Wu VGen LLMAG 39 1 0 07 Mar 2025
KAHANI: Culturally-Nuanced Visual Storytelling Tool for Non-Western Cultures Hamna Deepthi Sudharsan Agrima Seth Ritvik Budhiraja Deepika Khullar Vyshak Jain Kalika Bali Aditya Vashistha Sameer Segal DiffM 27 0 0 25 Oct 2024
Allegro: Open the Black Box of Commercial-Level Video Generation Model Yuan Zhou Qiuyue Wang Yuxuan Cai Huan Yang VGen VLM 69 23 0 20 Oct 2024
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation Zhengguang Zhou Jing Li Huaxia Li Nemo Chen Xu Tang DiffM VGen 22 7 0 19 Sep 2024
One missing piece in Vision and Language: A Survey on Comics Understanding Emanuele Vivoli Andrey Barsky Mohamed Ali Souibgui Artemis LLabres Marco Bertini Dimosthenis Karatzas 19 3 0 14 Sep 2024
MultiBooth: Towards Generating All Your Concepts in an Image from Text Chenyang Zhu Kai Li Yue Ma Chunming He Li Xiu DiffM 87 22 0 22 Apr 2024
Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance Dazhong Shen Guanglu Song Zeyue Xue Fu-Yun Wang Yu Liu DiffM 22 8 0 08 Apr 2024
Direct Consistency Optimization for Compositional Text-to-Image Personalization Kyungmin Lee Sangkyung Kwak Kihyuk Sohn Jinwoo Shin 58 6 0 19 Feb 2024
ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation Weiming Ren Harry Yang Ge Zhang Cong Wei Xinrun Du Stephen W. Huang Wenhu Chen DiffM VGen 65 52 0 06 Feb 2024
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 150 985 0 25 Nov 2023
Training-Free Layout Control with Cross-Attention Guidance Minghao Chen Iro Laina Andrea Vedaldi DiffM 121 217 0 06 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 186 1,098 0 10 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 313 8,261 0 28 Jan 2022
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 314 1,570 0 10 Nov 2021
Imagine This! Scripts to Compositions to Videos Tanmay Gupta Dustin Schwenk Ali Farhadi Derek Hoiem Aniruddha Kembhavi CoGe VGen 107 76 0 10 Apr 2018