SEED-Story: Multimodal Long Story Generation with Large Language Model

11 July 2024

Yingcong Chen

ArXiv (abs)PDF HTML HuggingFace (26 upvotes)

Papers citing "SEED-Story: Multimodal Long Story Generation with Large Language Model"

40 / 40 papers shown

NAMeGEn: Creative Name Generation via A Novel Agent-based Multiple Personalized Goal Enhancement Framework

346

19 Nov 2025

DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones

187

20 Oct 2025

LongLive: Real-time Interactive Long Video Generation

...

241

26 Sep 2025

Plotñ Polish: Zero-shot Story Visualization and Disentangled Editing with Text-to-Image Diffusion Models

129

04 Sep 2025

SpotEdit: Evaluating Visually-Guided Image Editing Methods

140

25 Aug 2025

FlexMUSE: Multimodal Unification and Semantics Enhancement Framework with Flexible interaction for Creative Writing

22 Aug 2025

Story2Board: A Training-Free Approach for Expressive Storyboard Generation

13 Aug 2025

Lay2Story: Extending Diffusion Transformers for Layout-Togglable Story Generation

157

12 Aug 2025

StorySync: Training-Free Subject Consistency in Text-to-Image Generation via Region Harmonization

Gopalji Gaur

Mohammadreza Zolfaghari

Thomas Brox

DiffM

152

31 Jul 2025

Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs

Saeed Ghorbani

VGen

148

29 Jul 2025

Captain Cinema: Towards Short Movie Generation

175

24 Jul 2025

Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025

...

268

14 Jun 2025

A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

...

302

11 Jun 2025

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

...

478

30 May 2025

Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts

Taewon Kang

Ming C. Lin

DiffM VGen

389

22 May 2025

CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition

295

28 Apr 2025

MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

...

277

08 Apr 2025

Storybooth: Training-free Multi-Subject Consistency for Improved Visual StorytellingInternational Conference on Learning Representations (ICLR), 2025

247

08 Apr 2025

AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

418

01 Apr 2025

SCORE: Story Coherence and Retrieval Enhancement for AI Narratives

...

723

30 Mar 2025

Unified Dense Prediction of Video DiffusionComputer Vision and Pattern Recognition (CVPR), 2025

368

12 Mar 2025

VisAgent: Narrative-Preserving Story Visualization FrameworkIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

267

04 Mar 2025

UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths

702

10 Feb 2025

VideoAuteur: Towards Long Narrative Video Generation

391

10 Jan 2025

Generative AI for Cel-Animation: A Survey

...

699

08 Jan 2025

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

...

608

07 Jan 2025

IDEA-Bench: How Far are Generative Models from Professional Designing?Computer Vision and Pattern Recognition (CVPR), 2024

305

16 Dec 2024

SpearBot: Leveraging Large Language Models in a Generative-Critique Framework for Spear-Phishing Email GenerationInformation Fusion (Inf. Fusion), 2024

269

15 Dec 2024

Olympus: A Universal Task Router for Computer Vision TasksComputer Vision and Pattern Recognition (CVPR), 2024

1.2K

12 Dec 2024

Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads

604

28 Nov 2024

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame SelectionComputer Vision and Pattern Recognition (CVPR), 2024

271

22 Nov 2024

Autoregressive Models in Vision: A Survey

...

489

08 Nov 2024

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

Ekkasit Pinyoanuntapong

Muhammad Usama Saleem

Korrawe Karunratanakul

467

14 Oct 2024

Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

Bohan Zeng

Ling Yang

Siyu Li

Jiaming Liu

Zixiang Zhang

...

Fu-Yun Wang

Wentao Zhang

208

09 Oct 2024

ACDC: Autoregressive Coherent Multimodal Generation using Diffusion Correction

Hyungjin Chung

Dohun Lee

Jong Chul Ye

VGen DiffM

195

07 Oct 2024

A Survey on Multimodal Benchmarks: In the Era of Large AI Models

Lin Li

Guikun Chen

Hanrong Shi

Jun Xiao

Long Chen

343

21 Sep 2024

SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

238

18 Aug 2024

Domain-invariant Representation Learning via Segment Anything Model for Blood Cell Classification

...

Bowen Zhang

Xiangzhong Zhang

254

14 Aug 2024

Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon Team

MLLM

580

629

16 May 2024

StoryGPT-V: Large Language Models as Consistent Story VisualizersComputer Vision and Pattern Recognition (CVPR), 2023

Xiaoqian Shen

Mohamed Elhoseiny

VLM

446

04 Dec 2023