v1v2v3 (latest)

DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation

23 May 2023

Papers citing "DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation"

31 / 31 papers shown

RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation

151

06 Nov 2025

Exploring Conditions for Diffusion models in Robotic Control

200

17 Oct 2025

3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation

120

16 Oct 2025

MultiCOIN: Multi-Modal COntrollable Video INbetweening

181

09 Oct 2025

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

...

21 Aug 2025

GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment DesignACM Symposium on User Interface Software and Technology (UIST), 2025

163

21 Aug 2025

A Survey of Generative Categories and Techniques in Multimodal Generative Models

399

29 May 2025

LLMPopcorn: An Empirical Study of LLMs as Assistants for Popular Micro-video Generation

341

20 Feb 2025

Bridging Interpretability and Robustness Using LIME-Guided Model Refinement

244

25 Dec 2024

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

505

25 Nov 2024

Multi-modal Generative AI: Multi-modal LLMs, Diffusions, and the Unification

490

23 Sep 2024

Compositional 3D-aware Video Generation with LLM DirectorNeural Information Processing Systems (NeurIPS), 2024

Zhibo Chen

208

31 Aug 2024

AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition

Zhengyuan Yang

Wangmeng Zuo

166

21 Aug 2024

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of AttentionNeural Information Processing Systems (NeurIPS), 2024

Mengkang Hu

DiffM

280

01 Aug 2024

ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models

Kaifeng Gao

Jiaxin Shi

Hanwang Zhang

Chunping Wang

Jun Xiao

DiffM VGen

289

16 Jun 2024

TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation

426

07 May 2024

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video GenerationNeural Information Processing Systems (NeurIPS), 2024

Ming-Ming Cheng

339

184

02 May 2024

AesopAgent: Agent-driven Evolutionary System on Story-to-Video Production

...

165

12 Mar 2024

Intelligent Director: An Automatic Framework for Dynamic Visual Composition using ChatGPT

163

24 Feb 2024

Plan, Posture and Go: Towards Open-World Text-to-Motion Generation

276

22 Dec 2023

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

211

07 Dec 2023

DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

241

153

07 Dec 2023

Multi-View Unsupervised Image Generation with Cross Attention Guidance

187

07 Dec 2023

MEVG: Multi-event Video Generation with Text-to-Video Models

306

07 Dec 2023

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Jianmin Bao

...

281

30 Nov 2023

MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation

Lianli Gao

Jingkuan Song

160

28 Nov 2023

FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax

Yu Lu

Linchao Zhu

Hehe Fan

Yi Yang

VGen DiffM

387

27 Nov 2023

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

Jiancheng Huang

Yifan Liu

Shifeng Chen

375

21 Nov 2023

Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

Devi Parikh

252

261

17 Nov 2023

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation

Xiangyu Zhang

321

16 Oct 2023

A Survey on Video Diffusion ModelsACM Computing Surveys (ACM Comput. Surv.), 2023

Zuxuan Wu

439

219

16 Oct 2023